Skip to content

English · Español

01 — Esquema, etiquetas y la taxonomía de mis-conjugaciones

🇪🇸 Cada fila del corpus tiene un esquema fijo: la forma en inglés, su traducción al español, lema verbal, tiempo, persona, regularidad, y una etiqueta (correct o mis_conjugated) con tipo de error si aplica. El esquema es contrato — si no se valida, la fila no entra al corpus.


El esquema de fila

Cada fila en data/processed/*.jsonl es un objeto JSON con esta forma:

{
  "id": "0042",
  "text": "he works",
  "spanish": "él trabaja",
  "verb_lemma": "work",
  "spanish_lemma": "trabajar",
  "tense": "present_simple",
  "person": "3sg",
  "english_regularity": "regular",
  "spanish_regularity": "regular",
  "label": "correct",
  "mis_conjugation_type": null,
  "correct_form": null,
  "seed": 42042,
  "fingerprint": "a1b2c3..."
}

Una fila mis-conjugada tiene la misma forma con el text desviante, label = "mis_conjugated", y el correct_form canónico poblado:

{
  "id": "0837",
  "text": "he work",
  "spanish": "él trabaja",
  "verb_lemma": "work",
  "spanish_lemma": "trabajar",
  "tense": "present_simple",
  "person": "3sg",
  "english_regularity": "regular",
  "spanish_regularity": "regular",
  "label": "mis_conjugated",
  "mis_conjugation_type": "missing_third_person_s",
  "correct_form": "he works",
  "seed": 42837,
  "fingerprint": "f9e8d7..."
}

Semántica de los campos:

  • id: estable a través de regeneraciones.
  • text: la forma en inglés (correcta o mis-conjugada).
  • spanish: la traducción al español de la forma intencionada. Para inglés mis-conjugado, spanish todavía lleva la forma correcta en español — no generamos "español incorrecto" en v1.
  • verb_lemma: el infinitivo en inglés (uno de los 20).
  • spanish_lemma: el infinitivo en español (el emparejamiento canónico).
  • tense: uno de infinitive, present_simple, past_simple, past_participle, future_will, future_going_to.
  • person: uno de 1sg, 2sg, 3sg.
  • english_regularity: regular (12 verbos) o irregular (8 verbos).
  • spanish_regularity: regular o irregular. Los mapeos difieren del inglés — p. ej., do (irregular EN) ↔ hacer (irregular ES); work (regular EN) ↔ trabajar (regular ES); see (irregular EN pasado) ↔ ver (regular-ish ES). Documentado en la tabla de verbos.
  • label: correct o mis_conjugated.
  • mis_conjugation_type: uno de los códigos canónicos (ver § abajo). Null para filas correctas.
  • correct_form: la forma correcta canónica en inglés, para filas mis-conjugadas. Null para filas correctas (donde text mismo es la forma correcta).
  • seed: la semilla RNG por-fila usada (mayormente cosmético — ver teoría 03).
  • fingerprint: sha256(normalize(text)). Clave de dedup.

El esquema se hace cumplir por scripts/validate_corpus.py vía un JSONSchema en data/corpus_spec.md. Cualquier fila que falle la validación es eliminada, no incluida silenciosamente.

Las dos etiquetas

correct

El text en inglés es una forma gramaticalmente válida para el (verbo, tiempo, persona) dado. El campo de español es la traducción canónica. Ejemplos:

  • (I, work, present_simple)text="I work", spanish="yo trabajo".
  • (he, eat, past_simple)text="he ate", spanish="él comió".
  • (you, go, future_going_to)text="you are going to go", spanish="tú vas a ir".

Una fila correct tiene label = "correct" y mis_conjugation_type = null.

mis_conjugated

El text en inglés está mal de una manera conocida. El campo correct_form lleva lo que la forma debería ser. El campo de español aún lleva el español correcto (no estamos modelando errores en español en v1).

Una fila mis_conjugated tiene label = "mis_conjugated", un mis_conjugation_type no-null de la taxonomía cerrada y un correct_form no-null.

La taxonomía de mis-conjugaciones (borrador v1, 6 tipos)

La lista cerrada de tipos de error en v1:

Code Trigger Example Correct
missing_third_person_s 3rd-sg present sin -s he work he works
overregularization_past Past irregular tratado como regular I goed I went
wrong_aux_will_with_to will seguido de to he will to work he will work
wrong_aux_going_to_missing_ing going to renderizado como go to I am go to work I am going to work
subject_verb_disagreement Auxiliar incorrecto para la persona you has worked you have worked
bare_participle_missing_aux Past participle sin auxiliar en un contexto que lo requiere he gone he has gone

Estos seis cubren los modos de error más comunes que un hablante ESL principiante comete. El generador puede emitir ~1–3 mis-conjugaciones por celda, condicionadas por:

  • Relevancia de la celda. missing_third_person_s solo aplica a celdas 3rd-sg present-simple.
  • Regularidad. overregularization_past solo aplica a verbos irregulares en past tense.
  • Tiempo. wrong_aux_will_with_to solo aplica a celdas future_will.
  • Subconjunto aleatorio. Cuando una celda es elegible para múltiples tipos, el generador muestrea (con semilla) cuál emitir.

Anti-patrón: generar una forma "incorrecta" que no encaje en una entrada limpia de la taxonomía. Si no puedes nombrar el tipo de error, no generes la fila.

Restricciones a nivel de snippet

Cada fila:

  1. Es una única forma sujeto + verbo (+ auxiliar opcional). Sin frases multi-cláusula en v1.
  2. Tiene longitud de texto objetivo de 2–25 bytes (aproximadamente 1–6 tokens BPE tras la Fase 11).
  3. Sin puntuación en v1. Formas desnudas solamente — I work, no I work.. (Opcional v1.5: añadir puntos finales de frase.)
  4. Solo minúsculas, excepto el pronombre I que convencionalmente se capitaliza en inglés. El español sigue las convenciones de capitalización en español (pronombre sujeto yo en minúscula). Esta convención se fija en la especificación para estabilidad de hash.
  5. No usa verbos fuera de los 20 en alcance.
  6. No usa pronombres fuera de I, you, he para inglés. (she, it son equivalentes a he morfológicamente; escogemos he como canónico.)
  7. No usa pronombres en español fuera de yo, , él.

Los 20 verbos y sus emparejamientos canónicos al español (tabla de verbos)

Esta es la tabla de lookup que gen_corpus.py usa:

English        Spanish      EN_reg   ES_reg
-------------  -----------  -------  -------
work           trabajar     reg      reg
play           jugar        reg      irreg (stem change e→ie)
walk           caminar      reg      reg
talk           hablar       reg      reg
listen         escuchar     reg      reg
watch          mirar        reg      reg
study          estudiar     reg      reg
finish         terminar     reg      reg
start          empezar      reg      irreg (stem change e→ie)
look           mirar        reg      reg     (note: same Spanish lemma as watch)
want           querer       reg      irreg
like           gustar       reg      reg     (note: gustar has inverted syntax in Spanish — see below)
be             ser          irreg    irreg
have           tener        irreg    irreg
do             hacer        irreg    irreg
go             ir           irreg    irreg
come           venir        irreg    irreg
see            ver          irreg    reg-ish (some irregularity in past)
eat            comer        irreg    reg
write          escribir     irreg    reg     (note: past participle "escrito" is irregular)

Notas capturadas en la spec:

  • watch ↔ mirar y look ↔ mirar colisionan en el lado español. Ambos verbos en inglés mapean al mismo lema en español; las fases posteriores ven esto y pueden aprender que una forma en español cubre dos significados en inglés. Aceptable para v1.
  • like ↔ gustar tiene sintaxis invertida en español: I like Xme gusta X (literalmente "X is pleasing to me"). El corpus v1 usa la forma literal me gusta, no yo gusto (que sería incorrecto). Documenta explícitamente.
  • be ↔ ser usa ser; la alternativa estar está fuera del alcance para v1.

Las 6 formas superficiales de tiempo y sus esquemas

Para cada par (verbo, persona), el generador emite estas 6 formas superficiales (coincidiendo con el desglose de celdas de la teoría 00):

Tense Esquema en inglés Esquema en español (regular trabajar)
infinitive to work trabajar
present_simple I work / you work / he works yo trabajo / tú trabajas / él trabaja
past_simple I worked / you worked / he worked yo trabajé / tú trabajaste / él trabajó
past_participle worked (bare) trabajado (bare)
future_will I will work / you will work / he will work yo trabajaré / tú trabajarás / él trabajará
future_going_to I am going to work / you are going to work / he is going to work yo voy a trabajar / tú vas a trabajar / él va a trabajar

La celda past_participle está desnuda — sin auxiliar. Incluirla le da al modelo la forma morfológica superficial para el participio. (Usada aguas abajo por la mis-conjugación bare_participle_missing_aux, donde la forma incorrecta omite el auxiliar que debería estar presente.)

Para verbos irregulares, el esquema es el mismo pero el stem cambia por verbo. La tabla de verbos (arriba) mapea cada verbo irregular a sus formas irregulares:

Verb       Past simple   Past participle
go         went          gone
be         was/were      been
have       had           had
do         did           done
come       came          come
see        saw           seen
eat        ate           eaten
write      wrote         written

Para be past simple: 1st-sg was, 2nd-sg were, 3rd-sg was. (Uno de los únicos verbos en inglés que distingue formas en past tense por persona — capturado explícitamente en la tabla.)

Reserva de tokens especiales

IDs reservados en el vocab del tokenizer de la Fase 11 (para fases posteriores):

ID Token Propósito
0 <\|pad\|> Padding para entrenamiento en batch.
1 <\|endoftext\|> Frontera de fila.
2 <\|unk\|> Reservado (el BPE a nivel de byte nunca emite esto, pero el slot está reservado).
3 <\|sep\|> Separador del agente tutor de la Fase 32 (p. ej., entre entrada mis-conjugada y corrección propuesta).

Las filas no incluyen estos en text; el tokenizer los añade en tiempo de entrenamiento/inferencia.

Problemas de práctica

Soluciones en solutions/01-schema-and-labels-ref.md (apertura de fase).

  1. Para la fila text="he goed", identifica el mis_conjugation_type, la forma correcta, y explica por qué este es un error sistemático (no aleatorio). ¿Qué patrón en la adquisición de lenguaje del mundo real refleja esto?
  2. El verbo en inglés like mapea al gustar en español con sintaxis invertida. Escribe el esquema para (I, like, present_simple) tanto en inglés como en español. Ahora escribe el esquema para (he, like, present_simple). ¿Cuál es la forma superficial en español, y por qué se ve como 3rd-person gusta aunque el inglés sea 3rd-person likes?
  3. La celda past_participle está desnuda (sin auxiliar). Argumenta por qué aún así la incluimos — ¿qué fallaría el modelo en aprender si la omitiéramos?

Recapitulación de un párrafo

Cada fila del corpus tiene un esquema fijo: texto en inglés, traducción al español, lema verbal + lema en español, tiempo, persona, regularidad (por idioma), etiqueta (correct o mis_conjugated), y — para filas mis-conjugadas — un código de tipo y la forma correcta canónica. Los 20 verbos × 6 formas superficiales × 3 personas = 360 celdas cubren completamente la matriz de gramática de §A13. Las mis-conjugaciones provienen de una taxonomía cerrada de 6 tipos, condicionadas por elegibilidad de celda. Los emparejamientos en español se buscan desde una tabla estática de verbos que registra el lema canónico por verbo en inglés más la regularidad por idioma.


Siguiente: theory/02-leakage-and-splits.md.