Skip to content

English · Español

Fase 19 — Dinámica de entrenamiento y depuración

Requiere: 18 — Bucle de entrenamiento, anticipo de mixed precision, checkpointing Enseña: instrumentation · hooks · gradient-norms · loss-curves · debugging Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo

Pre-escrito según A12. La teoría y los enunciados de los laboratorios son borradores estables; las soluciones se redactan justo a tiempo al abrir la fase.

La fase 18 te enseñó a entrenar. Esta te enseña a mirar. Tres bugs introducidos a propósito + un dashboard HTML estático + el desglose regular-vs-irregular = la diferencia entre "el modelo entrena" y "puedo demostrarlo".


Objetivo

Construir instrumentación que convierta el bucle de entrenamiento (training loop) de la Fase 18 de "ejecuta hasta el final" en "produce un registro forense de lo que ocurrió por dentro". A continuación, validar la instrumentación: (a) introduciendo tres fallos diseñados a propósito y diagnosticando cada uno solo desde el dashboard de diagnóstico, (b) extendiendo el entrenamiento más allá de la convergencia para ver abrirse la brecha train/val, y © descomponiendo la pérdida por clase de verbo para observar cómo el modelo aprende los verbos regulares (12, con pasado en -ed y -s en la tercera persona del singular) antes de aprender los irregulares (8: be, have, do, go, come, see, eat, write).

Al final de la Fase 19, Borja dispone del aparato de observación sobre el que se apoya el resto del currículo (Fases 20-22, y de nuevo 26-28) cada vez que una ejecución de entrenamiento se desmadra.

Orden de lectura

  1. theory/00-motivation.md — por qué "el entrenamiento se ve bien" es la peor frase en aprendizaje automático (machine learning).
  2. theory/01-what-to-instrument.md — los siete paneles del dashboard y qué revela cada uno.
  3. theory/02-dashboard-metrics.md — la matemática de cada métrica: norma espectral, neuronas muertas, ratios gradiente/activación, detección de spikes de pérdida (loss), descomposición por clase.
  4. theory/03-three-failure-modes.md — anatomía de la mala inicialización, el warmup ausente y la máscara causal rota: qué aspecto debería tener cada uno en el dashboard.
  5. lab/00-instrument-hooks.md — escribir los hooks de forward/backward; verificar que el overhead sea ≤ 30%.
  6. lab/01-build-dashboard.md — renderizar las estadísticas en streaming a un archivo HTML autocontenido con el panel regular-vs-irregular.
  7. lab/02-break-it.md — ejecutar los tres breaks diseñados; diagnosticar cada uno desde el dashboard antes de mirar.
  8. lab/03-overfit-on-purpose.md — extender el entrenamiento más allá de la convergencia; ver abrirse la brecha train/val y estabilizarse el impuesto regular/irregular.

solutions/ queda vacío durante el pre-escrito — se rellena al abrir la fase, después de que Borja haya comprometido sus diagnósticos.

Definición de Done

Ver PHASE_19_PLAN.md §6. En resumen:

  • experiments/19-healthy/dashboard.html muestra el patrón de referencia.
  • Tres diagnósticos comprometidos en experiments/19-break-it/borja-diagnoses.md antes de consultar las soluciones.
  • Precisión del diagnóstico sobre los tres breaks registrada honestamente en PHASE_19_REPORT.md.
  • El overhead del bucle de entrenamiento instrumentado es ≤ 30%.
  • El panel de pérdida regular-vs-irregular es visible al menos en el dashboard sano.

Lo que esta fase intencionadamente NO cubre

  • Evaluación más allá de perplexity / pérdida. Fase 20. La Fase 19 trata de dinámica durante el entrenamiento, no de calidad del modelo final.
  • Búsqueda de hiperparámetros. Un sweep real corresponde al trabajo de LoRA en la Fase 28; los tres breaks de aquí son fallos diseñados, no tuning aleatorio.
  • PyTorch. Fase 24.
  • Monitorización distribuida. Fase 35 + la historia de observabilidad de la Fase 34.
  • Arreglar los breaks más allá de anotar el fix. Diagnosticar es la lección; volver a ejecutar con el fix es una línea.
  • Análisis en tiempo de muestreo. La Fase 21 mira el comportamiento de la política de decodificación; la Fase 19 es solo training-time.

El alcance de la Fase 19 es: el dashboard + tres diagnósticos + la visualización del impuesto regular/irregular. Eso es todo.

Lecturas recomendadas

Opcional — enriquece pero no es necesario para aprobar la fase.