English · Español
Fase 10 — Quiz (espejo legible)¶
🇪🇸 Espejo legible del fichero canónico
data/quizzes/phase-10-init-norm-residuals.yaml. El portal (Phase 41) consume el YAML; este.mdes para repaso rápido.
Fuente: data/quizzes/phase-10-init-norm-residuals.yaml.
q-10-01 — ¿Por qué se prefiere bf16 sobre fp16 para entrenamiento? (single)¶
Tanto bf16 como fp16 usan 16 bits totales. ¿Qué propiedad de bf16 lo convierte en el default para el entrenamiento moderno de LLMs, mientras que fp16 requiere loss scaling?
- bf16 tiene una mantisa más larga, dando valores de gradiente más precisos
- bf16 tiene el exponente de 8 bits de fp32, dando rango dinámico equivalente a fp32 ✓
- el hardware bf16 es más rápido en todos los aceleradores desde 2018
- bf16 soporta subnormales mientras que fp16 no
bf16 cambia precisión de mantisa (7 bits) por rango dinámico equivalente a fp32 (exponente de 8 bits). Los gradientes necesitan rango, no precisión. El exponente de 5 bits de fp16 fuerza el loss scaling.
q-10-02 — RMSNorm vs LayerNorm — ¿qué se elimina? (multi)¶
- La sustracción de la media ✓
- El cálculo de varianza
- El sesgo aprendible β ✓
- La ganancia aprendible γ
RMSNorm usa
RMS = sqrt(mean(x²))en lugar de la desviación típica, así que la media por muestra nunca se calcula ni se sustrae, y β se elimina. γ se mantiene. El memory traffic es ~60% del de LayerNorm sin pérdida de calidad.
q-10-03 — ¿Por qué Pre-LN permite entrenar sin warmup? (free)¶
Se espera que contenga: identity.
Pre-LN sitúa el residual fuera del norm, así que
∂y/∂x = I + (algo). El camino de la identidad tiene ganancia unitaria garantizada en cada capa. Post-LN escala el residual por el Jacobiano del LayerNorm, lo que se compone mal.
q-10-04 — Encuentra el bug: posición de ε en RMSNorm (single)¶
Un learner escribe x / (np.sqrt(rms2) + eps) para el denominador de RMSNorm. ¿Qué entrada expone el bug?
- Una entrada de magnitud muy grande (rms2 → ∞)
- Una entrada que es toda ceros (rms2 → 0) ✓
- Una entrada que es exactamente la matriz identidad
- Una entrada que contiene valores NaN
Cuando
xes todo ceros,sqrt(rms2) → 0así que el denominador buggy se convierte eneps(minúsculo). La forma correcta dasqrt(eps), el suelo de varianza pretendido.
q-10-05 — Ganancia de Kaiming para GELU (single)¶
- Exactamente 1 (lineal)
- Exactamente sqrt(2)
- Aproximadamente sqrt(2) — lo bastante cerca; GELU y ReLU coinciden en la cola derecha ✓
- Aproximadamente sqrt(2/pi)
GELU y ReLU se comportan ambos como
xparaxpositivo grande y como0paraxnegativo grande. La ganancia que preserva la varianza está dominada por la cola derecha, así quesqrt(2)es una elección de primer orden razonable.