English · Español

04 — Tamaño del corpus, calidad y el tradeoff memorización-vs-generalización¶

🇪🇸 ¿Cuántos ejemplos necesita el §A13? La intuición ingenua dice "más, mejor". La realidad para corpus pequeños y enumerados es opuesta: cuando el corpus es exhaustivo en el dominio (20 verbs × 5 tenses × 3 persons = 300 formas), añadir ejemplos no añade información — solo cambia la presión de memorización. Esta página presenta la aritmética de cuándo memorizar es lo correcto, cuándo generalizar lo es, y dónde cae §A13.

Referencias: LYNX_CORTEX.md §4 / PHASE 12; LYNX_CORTEX_ADDENDUM.md §A13; Fase 19 (dinámicas de entrenamiento); Fase 28 §1 SFT y olvido catastrófico.

La pregunta básica¶

El corpus §A13 de Borja: 20 verbos × 5 tiempos × 3 personas × 2 idiomas ≈ 600 pares (English, Spanish), más frases de contexto (~200), más ejemplos de mis-conjugación para el agente de auditoría/corrección (~50). Total: ~850 frases.

Un modelo de lenguaje grande (LLM) moderno entrena con ~10^12 tokens (Llama-2, ~2T tokens). El corpus §A13 es 10^9 veces más pequeño por conteo de tokens.

¿Deberíamos avergonzarnos? ¿O es este el tamaño correcto?

Dos regímenes de entrenamiento de modelo¶

Régimen	Objetivo	El tamaño del corpus debe ser
Memorización	Almacenar hechos explícitos	≥ # hechos a almacenar
Generalización	Aprender estructura subyacente	≥ # ejemplos por "regla"

La mayor parte del hype de aprendizaje automático (machine learning) trata de generalización. Pero muchas tareas del mundo real (lookup, FAQ, generación estructurada) quieren memorización — y la quieren perfecta.

La tarea §A13 está en medio. El modelo debe:

Memorizar las conjugaciones irregulares (be → was → been, go → went → gone).
Generalizar el patrón regular (work → worked → worked, aplicado a cualquier nuevo verbo regular).

Esta es exactamente la razón por la que el currículo eligió 12 verbos regulares + 8 irregulares.

El piso teórico-informacional¶

Cada conjugación es una clasificación de 5 vías (5 tiempos). Entropía por ejemplo: log2(5) ≈ 2.32 bits. Para encajar 300 conjugaciones como memorización, el modelo necesita ≥ 300 × 2.32 ≈ 700 bits de capacidad en los lugares correctos.

Un mini-GPT con ~50K parámetros en fp32 tiene ~200K bits de capacidad nominal. Mucho espacio. El mini-GPT de la Fase 17 puede memorizar §A13 en 100 epochs trivialmente.

La cuestión es si generaliza a las 60 conjugaciones regulares no en el conjunto de entrenamiento (apartamos 5 de los 12 verbos regulares × 5 tiempos × 3 personas = 75 pares como conjunto val).

El cálculo del "tamaño correcto" para §A13¶

Supón que el modelo necesita N_ex ejemplos por regla de verbo regular para generalizar. Empíricamente (la curva train/val de la Fase 19) observamos:

≤ 50 ejemplos por regla → memoriza train, falla val en verbos no vistos.
50–200 ejemplos por regla → empieza a generalizar; la accuracy en val sube.
≥ 200 ejemplos por regla → meseta de val cerca del 100% (la regla está capturada).

Para los verbos regulares de §A13, cada forma obtiene 3 personas × 5 tiempos = 15 contextos por verbo. Con 12 verbos regulares en train = 12 × 15 = 180 ejemplos regulares. Eso está cerca del acantilado. La Fase 19 lo mide.

Compara: un corpus de tutorización del mundo real (300 verbos × 5 tiempos × 3 personas × bilingüe ≈ 9000 formas) tiene más formas pero los mismos 15 ejemplos por regla regular. §A13 opera en el mismo régimen, solo con menos verbos. Borja puede escalar §A13 a 100 verbos en la Fase 30+ si es necesario; el aprendizaje no cambia.

Cuando más datos perjudican: tareas limitadas por memorización¶

Contraintuitivo pero bien documentado: para tareas donde el modelo está destinado a memorizar, añadir ejemplos distractores (datos relacionados pero irrelevantes) degrada el rendimiento. Carlini et al. (2023) estudian esto bajo el nombre de "envenenamiento de datos por ejemplos neutros".

Para §A13, esto significa:

✅ Añadir más contextos de walk → walked (distintas frases usando la conjugación) ayuda.
❌ Añadir tweets aleatorios que casualmente mencionen "walk" perjudica: el modelo distribuye su capacidad entre ellos.

El alcance microscópico es una elección de diseño positiva, no una restricción de presupuesto.

Cuando más datos ayudan: tareas limitadas por generalización¶

Para la generalización de verbos regulares, el modelo necesita diversidad de contextos. Añadir más contextos por verbo regular (distintos patrones de frase, distintas personas) genuinamente ayuda. Añadir más verbos regulares distintos ayuda aún más — le enseña al modelo que -ed no es específico de walk.

El corpus §A13 tiene 12 verbos regulares. Si eso es suficiente es una cuestión empírica de la Fase 19. El lab allí barre N_regular_verbs ∈ {4, 8, 12, 20} y mide la accuracy en val.

Calidad vs cantidad — las matemáticas reales¶

Para un presupuesto fijo de B tokens de entrenamiento, el corpus óptimo tiene:

Alta cobertura: cada forma requerida aparece al menos k veces (k ≈ 3 empíricamente).
Bajo ruido: cada forma está etiquetada correctamente (los ejemplos de mis-conjugación están etiquetados como tales).
Balanceado: cada idioma obtiene el mismo número de tokens (dentro del 10%).

Un web-scrape de 1M tokens que menciona "walk" 50× y "walks" 2× y "walked" 200× es peor que un corpus enumerado de 1K tokens con cada forma 10×. La cobertura gana.

La Fase 12 §02 (leakage y splits) refuerza esto: el corpus está enumerado, el split está estratificado, el conjunto de validación es disjunto por tripla verbo-tiempo-persona.

Los números de §A13, concretamente¶

Total forms (enumerated)               : 20 × 5 × 3 × 2 = 600 pairs
Context sentences (10/verb × 20 verbs) : 200 sentences
Mis-conjugation examples (Phase 20)    : 50 (correct vs incorrect pairs)
Total tokens (byte-level BPE, vocab=512): ~12,000 tokens

Train/val split                        : 80 / 20 stratified by triple
Train tokens                           : ~9,600
Val tokens                             : ~2,400

Train examples seen per epoch          : 240
Steps per epoch (batch size 8)         : 30
Total steps for convergence (Phase 19) : ~1,000  (~30 epochs)

Memory cost (fp32 mini-GPT at 50K params): 200KB weights
Disk cost (corpus)                       : 50KB
Compute cost (CPU only)                  : 5 min on i5-8250U

Este es el presupuesto proof-of-concept del currículo. La Fase 41 (portal) medirá si un estudiante puede completar el currículo completo de 41 fases en un único portátil en 6 meses. El tamaño del corpus de la Fase 12 está dimensionado para encajar en ese presupuesto.

Lo que esto no aborda¶

La cola del lenguaje natural — el inglés real tiene 30,000+ verbos. El modelo §A13 fallaría con aboriginalize → aboriginalized. Eso está fuera de alcance.
Frases multi-cláusula — las frases §A13 tienen 5 palabras de largo. El mini-GPT de la Fase 17 no aprenderá a manejar "If I had walked, I would have arrived". Esto está diferido (sin expansión de alcance sin aprobación explícita, según CLAUDE.md §0.1).
Cambio de distribución — si un estudiante usa el portal con sus propias frases en la Fase 41, esas frases pueden tener estructuras novedosas. La Fase 38 (MLOps) aborda la detección de drift.

Referencias¶

Carlini, N. et al. 2023. "Quantifying Memorization Across Neural Language Models." arXiv:2202.07646 — distingue memorización de generalización cuantitativamente.
Hoffmann, J. et al. 2022. "Training Compute-Optimal Large Language Models" (Chinchilla). El ratio tokens : parameters ≈ 20 : 1 es para generalización. §A13 opera deliberadamente fuera de este régimen (pesado en memorización, alcance microscópico) — ver Extension Track X1.
Kaplan, J. et al. 2020. "Scaling Laws for Neural Language Models." arXiv:2001.08361.

Recapitulación de un párrafo¶

El corpus de §A13 es microscópico (~850 frases, ~12K tokens) por diseño. Las tareas se dividen en memorización (verbos irregulares — el modelo debe almacenar ~700 bits de hechos explícitos) y generalización (verbos regulares — el modelo necesita ~15 ejemplos por regla para capturar el patrón -ed). Añadir más datos perjudica las subtareas limitadas por memorización (envenenamiento por distractores) pero ayuda a las subtareas limitadas por generalización (cobertura). Los corpus enumerados, balanceados y de bajo ruido a esta escala superan a los corpus scrapeados 1000× más grandes para la forma específica de tarea de §A13. La Fase 19 mide empíricamente el acantilado train/val; la Fase 30 (o X1) extiende si Borja quiere escalar.

Siguiente: Fase 13 (embeddings).