Skip to content

English · Español

Fase 18 — Quizzes (espejo)

🇪🇸 Las preguntas canónicas viven en data/quizzes/phase-18-training-loop.yaml. Este archivo es el espejo en Markdown para repaso rápido.

La fuente de verdad es data/quizzes/phase-18-training-loop.yaml. El portal siembra los quizzes desde allí. Esta página los espejea para lectura rápida sin levantar el portal.


q-18-01 — Desacoplo de AdamW: ¿dónde entra λθ?

Prompt (EN): In AdamW, where does the weight-decay term λ·θ_{t-1} enter the per-step update?

  • A. Added to the gradient g_t before the moment update.
  • B. Added to the parameter update, alongside the bias-corrected m̂ / (√v̂ + ε) term.
  • C. Multiplied into the learning-rate schedule.
  • D. Subtracted from v_t to control variance.

Correcta: B. La "W" de AdamW es weight decay desacoplado — el término entra en la actualización, no en el gradient. Añadirlo a g_t es Adam-L2, un algoritmo distinto.


q-18-02 — Duración del warmup

Prompt (EN): With lr_max = 3e-4, warmup_steps = 100, what is the learning rate at step 25 (linear warmup)?

  • A. 3e-4
  • B. 1.5e-4
  • C. 7.5e-5
  • D. 0

Correcta: C. El warmup lineal en el step t da lr_max · t / W = 3e-4 · 25 / 100 = 7.5e-5.


q-18-03 — Política de gradient clipping

Prompt (EN): Why use global L2-norm clipping instead of per-tensor norm clipping?

Respuesta libre. Menciones esperadas: preserva la dirección de la actualización; el clipping por tensor cambia la dirección entre parámetros; el clip global reescala uniformemente.


q-18-04 — ¿Qué configuraciones de decay son válidas para un bloque MLP a escala §A13?

Prompt (EN): Select every configuration that is reasonable for the AdamW param_groups of an MLP block at §A13 scale.

  • A. Decay applied to Linear weights with λ = 0.1.
  • B. Decay applied to LayerNorm scale parameters with λ = 0.1.
  • C. Decay applied to bias vectors with λ = 0.1.
  • D. No decay on biases or LN scale; λ = 0.1 on Linear / Embedding weights.

Correctas: A, D. Decay sobre bias / escala de LN (B, C) los colapsa hacia cero, dañando la expresividad sin motivo — no es donde vive el sobreajuste.


q-18-05 — Omisión de corrección de sesgo

Prompt (EN): A learner reports that "warmup is too aggressive — even at step 50 the updates look tiny". They are using lr_max = 3e-4, warmup = 100. What is the most likely bug?

  • A. The warmup schedule is wrong.
  • B. The optimizer is using m_t and v_t directly without bias correction m̂_t = m_t/(1−β₁^t).
  • C. The clip threshold is too low.
  • D. The dataloader is shuffled per-step and never reaches the same example twice.

Correcta: B. Con t pequeño, m_t ≈ (1 − β₁) · g₁ ≈ 0.1 g₁. Sin corrección de sesgo, los primeros ~50 steps actualizan al ~10% de la magnitud prevista — parece warmup agresivo, en realidad falta la corrección de sesgo.