English · Español

Fase 12 — El corpus: diseñando el dataset microscópico¶

Requiere: 11 — Teoría de tokenización + implementación de BPE Enseña: corpus-design · enumeration · stratified-split · data-manifest · reproducibility Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo¶

Pre-escrita según A12. La teoría y los enunciados de los labs son borradores estables; las soluciones se escriben justo a tiempo en la apertura de la fase. Actualizada para §A13 (gramática verbal en inglés, supersede §A1).

🇪🇸 El corpus es la palanca: pequeño, opinado, reproducible. Enumeramos la matriz 20 verbs × 5 tenses × 3 persons con su par en español. La cobertura completa no es negociable, y las mis-conjugaciones controladas son la supervisión que necesita el tutor de la Fase 32.

Objetivo¶

Borja diseña, implementa y valida el corpus canónico del proyecto — el dataset sobre el que entrena cada fase posterior. Según §A13, el corpus enumera los 20 verbos del alcance (12 regulares + 8 irregulares) × 5 tiempos verbales (infinitive, present simple, past simple, past participle, simple future — con will y going to divididos en dos formas superficiales en el corpus → 6 superficies de tiempo) × 3 personas (1^st sg I, 2^nd sg you, 3^rd sg he/she/it), con pares de traducción al español para cada forma en inglés (según A2). Encima de eso, un conjunto curado de mis-conjugaciones deliberadas con etiquetas mis_conjugation_type da al agente tutor de la Fase 32 objetivos de corrección supervisados. El artefacto destacado de la fase es data/MANIFEST.json cuyos hashes fijan el corpus y cuyas cuentas por celda confirman cobertura de 360 celdas (20 × 6 × 3). Consulta theory/00-motivation.md para la justificación del desdoblamiento 5-vs-6 de formas superficiales.

Orden de lectura¶

theory/00-motivation.md — por qué un corpus bilingüe enumerado diminuto vence a un scrape ruidoso 100× mayor para este proyecto.
theory/01-schema-and-labels.md — el esquema de fila, la tupla (verb, tense, person, regularity, label) y la taxonomía de mis-conjugaciones.
theory/02-leakage-and-splits.md — cómo se ve la fuga de datos en una tarea de aprendizaje morfológico, y la división estratificada por (verb, tense) que la previene.
theory/03-reproducibility-and-versioning.md — generación con semilla, normalización NFC/UTF-8, manifests SHA256, uso mínimo de dvc.
lab/00-corpus-spec.md — escribe data/corpus_spec.md (el esquema + tabla de verbos + taxonomía de mis-conjugaciones). Ejercicio manual.
lab/01-implement-generator.md — escribe scripts/gen_corpus.py. Enumera las 360 celdas (20 × 6 superficies de tiempo × 3 personas); emite los pares en español; emite mis-conjugaciones.
lab/02-validate-and-split.md — escribe scripts/validate_corpus.py + scripts/split_corpus.py. Verificación de cobertura, dedup, división estratificada por (verb, tense), comprobación de leakage.
lab/03-version-with-dvc.md — dvc add data/processed/, escribe el MANIFEST, haz commit.

solutions/ está vacío durante el pre-write — se rellena al abrir la fase.

Definición de hecho (DoD)¶

Consulta PHASE_12_PLAN.md §6. Brevemente:

data/MANIFEST.json lista exactamente 360 celdas (verb, tense-surface, person) (20 × 6 × 3), cada una con ≥ 1 forma correcta.
Toda fila en inglés tiene un campo spanish no vacío.
Cuenta de mis-conjugaciones: ≥ 100 filas en ≥ 4 tipos distintos.
Re-ejecutar gen_corpus.py con la misma semilla reproduce SHA256 idénticos (test de CI).
La división train/val/test está estratificada por (verb, tense); sin leakage.
Heatmap de cobertura, distribución de longitud y diagramas Pareto de mis-conjugaciones commiteados.
dvc add ejecutado; archivos .dvc commiteados.

Lo que esta fase NO cubre intencionadamente¶

Scraping de texto libre en inglés. Permanecemos deliberadamente enumerativos. La gramática §A13 es finita; el scraping añade ruido que no necesitamos.
Plurales. Según §A13: plurales diferidos. Las personas son 1^st sg I, 2^nd sg you, 3^rd sg he/she/it. we/they quedan fuera del alcance.
Otros tiempos verbales. Present continuous (I am working), present perfect (I have worked), condicionales, subjuntivo — todos diferidos. v1 cubre exactamente los 5 tiempos verbales de §A13.
Frases multi-cláusula. Una forma de sujeto + verbo (+ auxiliar opcional) por fila. Sin coordinación, sin subordinación.
Tokenización del corpus. La Fase 11 entrena el tokenizer; la Fase 12 produce el texto fuente. El corpus almacena cadenas crudas, no IDs de tokens.
Entrenamiento de embeddings. La Fase 13 entrena embeddings sobre la salida del corpus aquí.
Otros idiomas además de pares inglés + español. Según §A2: el español es el único idioma emparejado.

El alcance de la Fase 12 es el corpus canónico bilingüe enumerado de formas verbales en inglés con traducciones al español y mis-conjugaciones controladas. Nada más.

Lecturas recomendadas¶

Opcional — enriquece pero no es necesario para aprobar la fase.

📄 Datasheets for Datasets — Gebru et al. · 2018. cómo documentar un corpus para que otros confíen en él.