English · Español
01 — Esquema, etiquetas y la taxonomía de mis-conjugaciones¶
🇪🇸 Cada fila del corpus tiene un esquema fijo: la forma en inglés, su traducción al español, lema verbal, tiempo, persona, regularidad, y una etiqueta (
correctomis_conjugated) con tipo de error si aplica. El esquema es contrato — si no se valida, la fila no entra al corpus.
El esquema de fila¶
Cada fila en data/processed/*.jsonl es un objeto JSON con esta forma:
{
"id": "0042",
"text": "he works",
"spanish": "él trabaja",
"verb_lemma": "work",
"spanish_lemma": "trabajar",
"tense": "present_simple",
"person": "3sg",
"english_regularity": "regular",
"spanish_regularity": "regular",
"label": "correct",
"mis_conjugation_type": null,
"correct_form": null,
"seed": 42042,
"fingerprint": "a1b2c3..."
}
Una fila mis-conjugada tiene la misma forma con el text desviante, label = "mis_conjugated", y el correct_form canónico poblado:
{
"id": "0837",
"text": "he work",
"spanish": "él trabaja",
"verb_lemma": "work",
"spanish_lemma": "trabajar",
"tense": "present_simple",
"person": "3sg",
"english_regularity": "regular",
"spanish_regularity": "regular",
"label": "mis_conjugated",
"mis_conjugation_type": "missing_third_person_s",
"correct_form": "he works",
"seed": 42837,
"fingerprint": "f9e8d7..."
}
Semántica de los campos:
id: estable a través de regeneraciones.text: la forma en inglés (correcta o mis-conjugada).spanish: la traducción al español de la forma intencionada. Para inglés mis-conjugado,spanishtodavía lleva la forma correcta en español — no generamos "español incorrecto" en v1.verb_lemma: el infinitivo en inglés (uno de los 20).spanish_lemma: el infinitivo en español (el emparejamiento canónico).tense: uno deinfinitive,present_simple,past_simple,past_participle,future_will,future_going_to.person: uno de1sg,2sg,3sg.english_regularity:regular(12 verbos) oirregular(8 verbos).spanish_regularity:regularoirregular. Los mapeos difieren del inglés — p. ej.,do(irregular EN) ↔hacer(irregular ES);work(regular EN) ↔trabajar(regular ES);see(irregular EN pasado) ↔ver(regular-ish ES). Documentado en la tabla de verbos.label:correctomis_conjugated.mis_conjugation_type: uno de los códigos canónicos (ver § abajo). Null para filas correctas.correct_form: la forma correcta canónica en inglés, para filas mis-conjugadas. Null para filas correctas (dondetextmismo es la forma correcta).seed: la semilla RNG por-fila usada (mayormente cosmético — ver teoría 03).fingerprint:sha256(normalize(text)). Clave de dedup.
El esquema se hace cumplir por scripts/validate_corpus.py vía un JSONSchema en data/corpus_spec.md. Cualquier fila que falle la validación es eliminada, no incluida silenciosamente.
Las dos etiquetas¶
correct¶
El text en inglés es una forma gramaticalmente válida para el (verbo, tiempo, persona) dado. El campo de español es la traducción canónica. Ejemplos:
(I, work, present_simple)→text="I work",spanish="yo trabajo".(he, eat, past_simple)→text="he ate",spanish="él comió".(you, go, future_going_to)→text="you are going to go",spanish="tú vas a ir".
Una fila correct tiene label = "correct" y mis_conjugation_type = null.
mis_conjugated¶
El text en inglés está mal de una manera conocida. El campo correct_form lleva lo que la forma debería ser. El campo de español aún lleva el español correcto (no estamos modelando errores en español en v1).
Una fila mis_conjugated tiene label = "mis_conjugated", un mis_conjugation_type no-null de la taxonomía cerrada y un correct_form no-null.
La taxonomía de mis-conjugaciones (borrador v1, 6 tipos)¶
La lista cerrada de tipos de error en v1:
| Code | Trigger | Example | Correct |
|---|---|---|---|
missing_third_person_s |
3rd-sg present sin -s |
he work |
he works |
overregularization_past |
Past irregular tratado como regular | I goed |
I went |
wrong_aux_will_with_to |
will seguido de to |
he will to work |
he will work |
wrong_aux_going_to_missing_ing |
going to renderizado como go to |
I am go to work |
I am going to work |
subject_verb_disagreement |
Auxiliar incorrecto para la persona | you has worked |
you have worked |
bare_participle_missing_aux |
Past participle sin auxiliar en un contexto que lo requiere | he gone |
he has gone |
Estos seis cubren los modos de error más comunes que un hablante ESL principiante comete. El generador puede emitir ~1–3 mis-conjugaciones por celda, condicionadas por:
- Relevancia de la celda.
missing_third_person_ssolo aplica a celdas 3rd-sg present-simple. - Regularidad.
overregularization_pastsolo aplica a verbos irregulares en past tense. - Tiempo.
wrong_aux_will_with_tosolo aplica a celdasfuture_will. - Subconjunto aleatorio. Cuando una celda es elegible para múltiples tipos, el generador muestrea (con semilla) cuál emitir.
Anti-patrón: generar una forma "incorrecta" que no encaje en una entrada limpia de la taxonomía. Si no puedes nombrar el tipo de error, no generes la fila.
Restricciones a nivel de snippet¶
Cada fila:
- Es una única forma sujeto + verbo (+ auxiliar opcional). Sin frases multi-cláusula en v1.
- Tiene longitud de texto objetivo de 2–25 bytes (aproximadamente 1–6 tokens BPE tras la Fase 11).
- Sin puntuación en v1. Formas desnudas solamente —
I work, noI work.. (Opcional v1.5: añadir puntos finales de frase.) - Solo minúsculas, excepto el pronombre
Ique convencionalmente se capitaliza en inglés. El español sigue las convenciones de capitalización en español (pronombre sujetoyoen minúscula). Esta convención se fija en la especificación para estabilidad de hash. - No usa verbos fuera de los 20 en alcance.
- No usa pronombres fuera de
I,you,hepara inglés. (she,itson equivalentes ahemorfológicamente; escogemoshecomo canónico.) - No usa pronombres en español fuera de
yo,tú,él.
Los 20 verbos y sus emparejamientos canónicos al español (tabla de verbos)¶
Esta es la tabla de lookup que gen_corpus.py usa:
English Spanish EN_reg ES_reg
------------- ----------- ------- -------
work trabajar reg reg
play jugar reg irreg (stem change e→ie)
walk caminar reg reg
talk hablar reg reg
listen escuchar reg reg
watch mirar reg reg
study estudiar reg reg
finish terminar reg reg
start empezar reg irreg (stem change e→ie)
look mirar reg reg (note: same Spanish lemma as watch)
want querer reg irreg
like gustar reg reg (note: gustar has inverted syntax in Spanish — see below)
be ser irreg irreg
have tener irreg irreg
do hacer irreg irreg
go ir irreg irreg
come venir irreg irreg
see ver irreg reg-ish (some irregularity in past)
eat comer irreg reg
write escribir irreg reg (note: past participle "escrito" is irregular)
Notas capturadas en la spec:
watch ↔ mirarylook ↔ mirarcolisionan en el lado español. Ambos verbos en inglés mapean al mismo lema en español; las fases posteriores ven esto y pueden aprender que una forma en español cubre dos significados en inglés. Aceptable para v1.like ↔ gustartiene sintaxis invertida en español:I like X→me gusta X(literalmente "X is pleasing to me"). El corpus v1 usa la forma literalme gusta, noyo gusto(que sería incorrecto). Documenta explícitamente.be ↔ serusaser; la alternativaestarestá fuera del alcance para v1.
Las 6 formas superficiales de tiempo y sus esquemas¶
Para cada par (verbo, persona), el generador emite estas 6 formas superficiales (coincidiendo con el desglose de celdas de la teoría 00):
| Tense | Esquema en inglés | Esquema en español (regular trabajar) |
|---|---|---|
infinitive |
to work |
trabajar |
present_simple |
I work / you work / he works |
yo trabajo / tú trabajas / él trabaja |
past_simple |
I worked / you worked / he worked |
yo trabajé / tú trabajaste / él trabajó |
past_participle |
worked (bare) |
trabajado (bare) |
future_will |
I will work / you will work / he will work |
yo trabajaré / tú trabajarás / él trabajará |
future_going_to |
I am going to work / you are going to work / he is going to work |
yo voy a trabajar / tú vas a trabajar / él va a trabajar |
La celda past_participle está desnuda — sin auxiliar. Incluirla le da al modelo la forma morfológica superficial para el participio. (Usada aguas abajo por la mis-conjugación bare_participle_missing_aux, donde la forma incorrecta omite el auxiliar que debería estar presente.)
Para verbos irregulares, el esquema es el mismo pero el stem cambia por verbo. La tabla de verbos (arriba) mapea cada verbo irregular a sus formas irregulares:
Verb Past simple Past participle
go went gone
be was/were been
have had had
do did done
come came come
see saw seen
eat ate eaten
write wrote written
Para be past simple: 1st-sg was, 2nd-sg were, 3rd-sg was. (Uno de los únicos verbos en inglés que distingue formas en past tense por persona — capturado explícitamente en la tabla.)
Reserva de tokens especiales¶
IDs reservados en el vocab del tokenizer de la Fase 11 (para fases posteriores):
| ID | Token | Propósito |
|---|---|---|
| 0 | <\|pad\|> |
Padding para entrenamiento en batch. |
| 1 | <\|endoftext\|> |
Frontera de fila. |
| 2 | <\|unk\|> |
Reservado (el BPE a nivel de byte nunca emite esto, pero el slot está reservado). |
| 3 | <\|sep\|> |
Separador del agente tutor de la Fase 32 (p. ej., entre entrada mis-conjugada y corrección propuesta). |
Las filas no incluyen estos en text; el tokenizer los añade en tiempo de entrenamiento/inferencia.
Problemas de práctica¶
Soluciones en solutions/01-schema-and-labels-ref.md (apertura de fase).
- Para la fila
text="he goed", identifica elmis_conjugation_type, la forma correcta, y explica por qué este es un error sistemático (no aleatorio). ¿Qué patrón en la adquisición de lenguaje del mundo real refleja esto? - El verbo en inglés
likemapea algustaren español con sintaxis invertida. Escribe el esquema para(I, like, present_simple)tanto en inglés como en español. Ahora escribe el esquema para(he, like, present_simple). ¿Cuál es la forma superficial en español, y por qué se ve como 3rd-persongustaaunque el inglés sea 3rd-personlikes? - La celda
past_participleestá desnuda (sin auxiliar). Argumenta por qué aún así la incluimos — ¿qué fallaría el modelo en aprender si la omitiéramos?
Recapitulación de un párrafo¶
Cada fila del corpus tiene un esquema fijo: texto en inglés, traducción al español, lema verbal + lema en español, tiempo, persona, regularidad (por idioma), etiqueta (correct o mis_conjugated), y — para filas mis-conjugadas — un código de tipo y la forma correcta canónica. Los 20 verbos × 6 formas superficiales × 3 personas = 360 celdas cubren completamente la matriz de gramática de §A13. Las mis-conjugaciones provienen de una taxonomía cerrada de 6 tipos, condicionadas por elegibilidad de celda. Los emparejamientos en español se buscan desde una tabla estática de verbos que registra el lema canónico por verbo en inglés más la regularidad por idioma.
Siguiente: theory/02-leakage-and-splits.md.