English · Español

Fase 19 — Quizzes (espejo)¶

Las preguntas canónicas viven en data/quizzes/phase-19-training-dynamics.yaml. Este archivo es el espejo en Markdown para repaso rápido.

q-19-01 — Firma de overflow fp16¶

Prompt (EN): A run in fp16 with no loss scaling shows: forward pass produces finite activations, but grad-norm becomes inf at step 432. What is the most likely cause?

A. Bad init.
B. Activation magnitude exceeded 65504 in the backward pass.
C. LR too high.
D. Optimizer state corruption.

Correcta: B. El máximo fp16 es 65504; el backward pass produce gradientes cuyos valores intermedios excedieron este límite. El loss scaling mueve los gradientes al rango representable.

q-19-02 — Umbral de severidad de spike¶

Prompt (EN): Using a rolling 100-step window of training loss, what is the standard "spike" threshold you'd flag in the dashboard?

Respuesta libre. Menciones esperadas: 3σ (o "3 sigma") por encima de la media móvil.

q-19-03 — Spike recuperable vs persistente¶

Prompt (EN): A loss spike at step 500 brings loss from 2.3 to 8.0, then settles at 5.0 by step 600 and does not return to the pre-spike trajectory. What is the right first action?

A. Lower learning rate and continue.
B. Reload the last pre-spike checkpoint, then apply a preventative fix.
C. Increase weight decay.
D. Restart from scratch with new seed.

Correcta: B. La elevación persistente significa que los momentos del optimizador se han corrompido; continuar desperdicia pasos. Recargar + fix preventivo es el camino de vuelta más barato.

q-19-04 — ¿Qué señales son fiables para el análisis de causa raíz de una spike?¶

Prompt (EN): Select every dashboard panel/signal that is informative for distinguishing a long-tail-token spike from an LR-schedule-induced spike.

A. Pre-clip gradient norm at the spike step.
B. LR value over the window around the spike.
C. Batch composition log at the spike step.
D. Final eval perplexity.

Correcta: A, B, C. La norma de gradiente pre-clip indica si un batch fue anormalmente caro; el panel de LR muestra continuidad del schedule; la composición del batch revela concentración de cola larga. La perplejidad final de eval está demasiado aguas abajo para discriminar causas.

q-19-05 — Mecanismo de concentración de cola larga¶

Prompt (EN): In one or two sentences, explain why a single batch with three sentences containing a rare BPE token can produce a 30× spike in global gradient norm at §A13 scale.

Respuesta libre. Menciones esperadas: la fila de embedding del token raro ve una porción desproporcionada de la loss del batch; el gradiente sobre esa fila es grande; la norma L2 global está dominada por esa única fila.