Skip to content

English · Español

Fase 12 — El corpus: diseñando el dataset microscópico

Requiere: 11 — Teoría de tokenización + implementación de BPE Enseña: corpus-design · enumeration · stratified-split · data-manifest · reproducibility Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo

Pre-escrita según A12. La teoría y los enunciados de los labs son borradores estables; las soluciones se escriben justo a tiempo en la apertura de la fase. Actualizada para §A13 (gramática verbal en inglés, supersede §A1).

🇪🇸 El corpus es la palanca: pequeño, opinado, reproducible. Enumeramos la matriz 20 verbs × 5 tenses × 3 persons con su par en español. La cobertura completa no es negociable, y las mis-conjugaciones controladas son la supervisión que necesita el tutor de la Fase 32.


Objetivo

Borja diseña, implementa y valida el corpus canónico del proyecto — el dataset sobre el que entrena cada fase posterior. Según §A13, el corpus enumera los 20 verbos del alcance (12 regulares + 8 irregulares) × 5 tiempos verbales (infinitive, present simple, past simple, past participle, simple future — con will y going to divididos en dos formas superficiales en el corpus → 6 superficies de tiempo) × 3 personas (1st sg I, 2nd sg you, 3rd sg he/she/it), con pares de traducción al español para cada forma en inglés (según A2). Encima de eso, un conjunto curado de mis-conjugaciones deliberadas con etiquetas mis_conjugation_type da al agente tutor de la Fase 32 objetivos de corrección supervisados. El artefacto destacado de la fase es data/MANIFEST.json cuyos hashes fijan el corpus y cuyas cuentas por celda confirman cobertura de 360 celdas (20 × 6 × 3). Consulta theory/00-motivation.md para la justificación del desdoblamiento 5-vs-6 de formas superficiales.

Orden de lectura

  1. theory/00-motivation.md — por qué un corpus bilingüe enumerado diminuto vence a un scrape ruidoso 100× mayor para este proyecto.
  2. theory/01-schema-and-labels.md — el esquema de fila, la tupla (verb, tense, person, regularity, label) y la taxonomía de mis-conjugaciones.
  3. theory/02-leakage-and-splits.md — cómo se ve la fuga de datos en una tarea de aprendizaje morfológico, y la división estratificada por (verb, tense) que la previene.
  4. theory/03-reproducibility-and-versioning.md — generación con semilla, normalización NFC/UTF-8, manifests SHA256, uso mínimo de dvc.
  5. lab/00-corpus-spec.md — escribe data/corpus_spec.md (el esquema + tabla de verbos + taxonomía de mis-conjugaciones). Ejercicio manual.
  6. lab/01-implement-generator.md — escribe scripts/gen_corpus.py. Enumera las 360 celdas (20 × 6 superficies de tiempo × 3 personas); emite los pares en español; emite mis-conjugaciones.
  7. lab/02-validate-and-split.md — escribe scripts/validate_corpus.py + scripts/split_corpus.py. Verificación de cobertura, dedup, división estratificada por (verb, tense), comprobación de leakage.
  8. lab/03-version-with-dvc.mddvc add data/processed/, escribe el MANIFEST, haz commit.

solutions/ está vacío durante el pre-write — se rellena al abrir la fase.

Definición de hecho (DoD)

Consulta PHASE_12_PLAN.md §6. Brevemente:

  • data/MANIFEST.json lista exactamente 360 celdas (verb, tense-surface, person) (20 × 6 × 3), cada una con ≥ 1 forma correcta.
  • Toda fila en inglés tiene un campo spanish no vacío.
  • Cuenta de mis-conjugaciones: ≥ 100 filas en ≥ 4 tipos distintos.
  • Re-ejecutar gen_corpus.py con la misma semilla reproduce SHA256 idénticos (test de CI).
  • La división train/val/test está estratificada por (verb, tense); sin leakage.
  • Heatmap de cobertura, distribución de longitud y diagramas Pareto de mis-conjugaciones commiteados.
  • dvc add ejecutado; archivos .dvc commiteados.

Lo que esta fase NO cubre intencionadamente

  • Scraping de texto libre en inglés. Permanecemos deliberadamente enumerativos. La gramática §A13 es finita; el scraping añade ruido que no necesitamos.
  • Plurales. Según §A13: plurales diferidos. Las personas son 1st sg I, 2nd sg you, 3rd sg he/she/it. we/they quedan fuera del alcance.
  • Otros tiempos verbales. Present continuous (I am working), present perfect (I have worked), condicionales, subjuntivo — todos diferidos. v1 cubre exactamente los 5 tiempos verbales de §A13.
  • Frases multi-cláusula. Una forma de sujeto + verbo (+ auxiliar opcional) por fila. Sin coordinación, sin subordinación.
  • Tokenización del corpus. La Fase 11 entrena el tokenizer; la Fase 12 produce el texto fuente. El corpus almacena cadenas crudas, no IDs de tokens.
  • Entrenamiento de embeddings. La Fase 13 entrena embeddings sobre la salida del corpus aquí.
  • Otros idiomas además de pares inglés + español. Según §A2: el español es el único idioma emparejado.

El alcance de la Fase 12 es el corpus canónico bilingüe enumerado de formas verbales en inglés con traducciones al español y mis-conjugaciones controladas. Nada más.

Lecturas recomendadas

Opcional — enriquece pero no es necesario para aprobar la fase.

  • 📄 Datasheets for Datasets — Gebru et al. · 2018. cómo documentar un corpus para que otros confíen en él.