English · Español
Fase 19 — Quizzes (espejo)¶
Las preguntas canónicas viven en
data/quizzes/phase-19-training-dynamics.yaml. Este archivo es el espejo en Markdown para repaso rápido.
q-19-01 — Firma de overflow fp16¶
Prompt (EN): A run in fp16 with no loss scaling shows: forward pass produces finite activations, but grad-norm becomes inf at step 432. What is the most likely cause?
- A. Bad init.
- B. Activation magnitude exceeded 65504 in the backward pass.
- C. LR too high.
- D. Optimizer state corruption.
Correcta: B. El máximo fp16 es 65504; el backward pass produce gradientes cuyos valores intermedios excedieron este límite. El loss scaling mueve los gradientes al rango representable.
q-19-02 — Umbral de severidad de spike¶
Prompt (EN): Using a rolling 100-step window of training loss, what is the standard "spike" threshold you'd flag in the dashboard?
Respuesta libre. Menciones esperadas: 3σ (o "3 sigma") por encima de la media móvil.
q-19-03 — Spike recuperable vs persistente¶
Prompt (EN): A loss spike at step 500 brings loss from 2.3 to 8.0, then settles at 5.0 by step 600 and does not return to the pre-spike trajectory. What is the right first action?
- A. Lower learning rate and continue.
- B. Reload the last pre-spike checkpoint, then apply a preventative fix.
- C. Increase weight decay.
- D. Restart from scratch with new seed.
Correcta: B. La elevación persistente significa que los momentos del optimizador se han corrompido; continuar desperdicia pasos. Recargar + fix preventivo es el camino de vuelta más barato.
q-19-04 — ¿Qué señales son fiables para el análisis de causa raíz de una spike?¶
Prompt (EN): Select every dashboard panel/signal that is informative for distinguishing a long-tail-token spike from an LR-schedule-induced spike.
- A. Pre-clip gradient norm at the spike step.
- B. LR value over the window around the spike.
- C. Batch composition log at the spike step.
- D. Final eval perplexity.
Correcta: A, B, C. La norma de gradiente pre-clip indica si un batch fue anormalmente caro; el panel de LR muestra continuidad del schedule; la composición del batch revela concentración de cola larga. La perplejidad final de eval está demasiado aguas abajo para discriminar causas.
q-19-05 — Mecanismo de concentración de cola larga¶
Prompt (EN): In one or two sentences, explain why a single batch with three sentences containing a rare BPE token can produce a 30× spike in global gradient norm at §A13 scale.
Respuesta libre. Menciones esperadas: la fila de embedding del token raro ve una porción desproporcionada de la loss del batch; el gradiente sobre esa fila es grande; la norma L2 global está dominada por esa única fila.