English · Español

Fase 10 — Quiz (espejo legible)¶

🇪🇸 Espejo legible del fichero canónico data/quizzes/phase-10-init-norm-residuals.yaml. El portal (Phase 41) consume el YAML; este .md es para repaso rápido.

Fuente: data/quizzes/phase-10-init-norm-residuals.yaml.

q-10-01 — ¿Por qué se prefiere bf16 sobre fp16 para entrenamiento? (single)¶

Tanto bf16 como fp16 usan 16 bits totales. ¿Qué propiedad de bf16 lo convierte en el default para el entrenamiento moderno de LLMs, mientras que fp16 requiere loss scaling?

bf16 tiene una mantisa más larga, dando valores de gradiente más precisos
bf16 tiene el exponente de 8 bits de fp32, dando rango dinámico equivalente a fp32 ✓
el hardware bf16 es más rápido en todos los aceleradores desde 2018
bf16 soporta subnormales mientras que fp16 no

bf16 cambia precisión de mantisa (7 bits) por rango dinámico equivalente a fp32 (exponente de 8 bits). Los gradientes necesitan rango, no precisión. El exponente de 5 bits de fp16 fuerza el loss scaling.

q-10-02 — RMSNorm vs LayerNorm — ¿qué se elimina? (multi)¶

La sustracción de la media ✓
El cálculo de varianza
El sesgo aprendible β ✓
La ganancia aprendible γ

RMSNorm usa RMS = sqrt(mean(x²)) en lugar de la desviación típica, así que la media por muestra nunca se calcula ni se sustrae, y β se elimina. γ se mantiene. El memory traffic es ~60% del de LayerNorm sin pérdida de calidad.

q-10-03 — ¿Por qué Pre-LN permite entrenar sin warmup? (free)¶

Se espera que contenga: identity.

Pre-LN sitúa el residual fuera del norm, así que ∂y/∂x = I + (algo). El camino de la identidad tiene ganancia unitaria garantizada en cada capa. Post-LN escala el residual por el Jacobiano del LayerNorm, lo que se compone mal.

q-10-04 — Encuentra el bug: posición de ε en RMSNorm (single)¶

Un learner escribe x / (np.sqrt(rms2) + eps) para el denominador de RMSNorm. ¿Qué entrada expone el bug?

Una entrada de magnitud muy grande (rms2 → ∞)
Una entrada que es toda ceros (rms2 → 0) ✓
Una entrada que es exactamente la matriz identidad
Una entrada que contiene valores NaN

Cuando x es todo ceros, sqrt(rms2) → 0 así que el denominador buggy se convierte en eps (minúsculo). La forma correcta da sqrt(eps), el suelo de varianza pretendido.

q-10-05 — Ganancia de Kaiming para GELU (single)¶

Exactamente 1 (lineal)
Exactamente sqrt(2)
Aproximadamente sqrt(2) — lo bastante cerca; GELU y ReLU coinciden en la cola derecha ✓
Aproximadamente sqrt(2/pi)

GELU y ReLU se comportan ambos como x para x positivo grande y como 0 para x negativo grande. La ganancia que preserva la varianza está dominada por la cola derecha, así que sqrt(2) es una elección de primer orden razonable.