Skip to content

English · Español

Fase 19 — Quizzes (espejo)

Las preguntas canónicas viven en data/quizzes/phase-19-training-dynamics.yaml. Este archivo es el espejo en Markdown para repaso rápido.


q-19-01 — Firma de overflow fp16

Prompt (EN): A run in fp16 with no loss scaling shows: forward pass produces finite activations, but grad-norm becomes inf at step 432. What is the most likely cause?

  • A. Bad init.
  • B. Activation magnitude exceeded 65504 in the backward pass.
  • C. LR too high.
  • D. Optimizer state corruption.

Correcta: B. El máximo fp16 es 65504; el backward pass produce gradientes cuyos valores intermedios excedieron este límite. El loss scaling mueve los gradientes al rango representable.


q-19-02 — Umbral de severidad de spike

Prompt (EN): Using a rolling 100-step window of training loss, what is the standard "spike" threshold you'd flag in the dashboard?

Respuesta libre. Menciones esperadas: (o "3 sigma") por encima de la media móvil.


q-19-03 — Spike recuperable vs persistente

Prompt (EN): A loss spike at step 500 brings loss from 2.3 to 8.0, then settles at 5.0 by step 600 and does not return to the pre-spike trajectory. What is the right first action?

  • A. Lower learning rate and continue.
  • B. Reload the last pre-spike checkpoint, then apply a preventative fix.
  • C. Increase weight decay.
  • D. Restart from scratch with new seed.

Correcta: B. La elevación persistente significa que los momentos del optimizador se han corrompido; continuar desperdicia pasos. Recargar + fix preventivo es el camino de vuelta más barato.


q-19-04 — ¿Qué señales son fiables para el análisis de causa raíz de una spike?

Prompt (EN): Select every dashboard panel/signal that is informative for distinguishing a long-tail-token spike from an LR-schedule-induced spike.

  • A. Pre-clip gradient norm at the spike step.
  • B. LR value over the window around the spike.
  • C. Batch composition log at the spike step.
  • D. Final eval perplexity.

Correcta: A, B, C. La norma de gradiente pre-clip indica si un batch fue anormalmente caro; el panel de LR muestra continuidad del schedule; la composición del batch revela concentración de cola larga. La perplejidad final de eval está demasiado aguas abajo para discriminar causas.


q-19-05 — Mecanismo de concentración de cola larga

Prompt (EN): In one or two sentences, explain why a single batch with three sentences containing a rare BPE token can produce a 30× spike in global gradient norm at §A13 scale.

Respuesta libre. Menciones esperadas: la fila de embedding del token raro ve una porción desproporcionada de la loss del batch; el gradiente sobre esa fila es grande; la norma L2 global está dominada por esa única fila.