English · Español

Fase 20 — Arnés de evaluación (evaluation harness)¶

Requiere: 19 — Dinámica de entrenamiento y debugging Enseña: evaluation · accuracy-probes · calibration · adversarial-eval · bootstrap-ci Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo¶

Pre-escrito según A12. Las consignas de teoría y laboratorio son borradores estables; las soluciones se redactan justo a tiempo al abrir la fase.

🇪🇸 Después de entrenar, medir. Perplexity sola no es suficiente — el modelo debe demostrar que las 20 verbos × 5 tiempos × 3 personas son su universo nativo, en inglés y español. Aquí construimos el banco de pruebas específico al dominio.

Objetivo¶

Pasar de "la pérdida bajó" a "el modelo es bueno en la tarea para la que lo construimos". Medir perplejidad (perplexity), accuracy de clasificación por slice, calibración y robustez adversarial sobre un conjunto de probes etiquetadas a mano que cubren el alcance microscópico de la gramática verbal inglesa (según LYNX_CORTEX_ADDENDUM.md §A13): 20 verbos × 5 tiempos × 3 personas singulares, con sus formas en español emparejadas.

Al final de la Fase 20, Borja puede señalar un checkpoint concreto y decir, con números: "Este modelo acierta el 87 % en correct-vs-incorrect en global, el 95 % en verbos regulares en presente simple, sólo el 71 % en pasado simple irregular, está bien calibrado hasta una confianza de 0.8 y se sobreconfía por encima, y es robusto a la mayoría de trucos adversariales salvo la hiper-regularización (p. ej., goed, eated) donde cae al 40 %".

Orden de lectura¶

theory/00-motivation.md — por qué una sola métrica es una mentira.
theory/01-metrics-catalog.md — perplejidad, accuracy de clasificación, pass@k, calibración, adversarial — qué mide cada una y qué no.
theory/02-metrics-math.md — derivaciones: PPL a partir de CE, estimador de pass@k, binning de ECE, Brier score.
theory/03-probe-construction.md — cómo construir un probe set justo, reglas de higiene de evaluación, prevención de filtraciones (leak).
lab/00-probe-schema.md — definir el schema del probe set y cargar 50 ejemplos etiquetados.
lab/01-harness-perplexity-accuracy.md — montar el arnés básico; calcular PPL + accuracy por slice.
lab/02-calibration-and-adversarial.md — añadir métricas de calibración y un slice adversarial.
lab/03-report-and-checkpoint-compare.md — producir REPORT.md por checkpoint; comparar dos checkpoints lado a lado.

solutions/ está vacío durante el pre-escrito — se rellena al abrir la fase, una vez fijada la API del arnés de Borja.

Definition of Done¶

Ver PHASE_20_PLAN.md §6. Brevemente:

data/eval/probes.jsonl con ≥ 60 ejemplos etiquetados que cubran los 20 verbos en ambos idiomas.
data/eval/adversarial.jsonl con ≥ 20 casos truculentos (hiper-regularización, persona errónea, tiempo erróneo, desajuste de forma EN/ES).
experiments/20-eval-report/REPORT.md para el checkpoint final de la Fase 18 Y el checkpoint best-val (sobreajuste de Fase 19).
Gráficas de barras por slice + diagrama de fiabilidad + scores adversariales comiteados.
Un enunciado escrito de qué slices maneja bien o mal el modelo — desglosado por idioma (EN vs ES), regularidad (regular vs irregular), tiempo y persona.

Lo que esta fase NO cubre intencionadamente¶

Entrenamiento. Fases 18-19. La Fase 20 lee checkpoints existentes; no entrena.
Muestreo / generación. Fase 21. Aquí sólo usamos salidas greedy o de temperatura 0 para clasificación; la evaluación completa de generación es la fase siguiente.
Evaluación frente a un corpus mucho mayor. El probe set es justo etiquetado, curado a mano. Escalar probes a miles es un ejercicio distinto.
Evaluación de RAG. Fase 29.
Evaluación de agente. Fase 32, con sus propias probes dirigidas por el tutor de gramática.
PyTorch. Fase 24.

El alcance de la Fase 20 es medir el modelo entrenado en Fase 18 contra el objetivo real del currículo (conjugación de gramática verbal inglesa, con pares en español). Nada más.

Lecturas recomendadas¶

Opcional — enriquece pero no es necesario para aprobar la fase.

📄 On Calibration of Modern Neural Networks — Guo et al. · 2017. por qué la accuracy sola engaña, y cómo medir la calibración.
📄 Holistic Evaluation of Language Models (HELM) — Liang et al. · 2022. cómo es un harness de evaluación serio y multi-eje.