English · Español
Fase 17 — Quiz (espejo legible para humanos)¶
🇪🇸 Espejo legible del canónico
data/quizzes/phase-17-mini-gpt.yaml.
Fuente: data/quizzes/phase-17-mini-gpt.yaml.
q-17-01 — Conteo de parámetros por capa (única)¶
Un bloque transformer Pre-LN con d_model = d, d_ff = 4d, sin sesgos. ¿Parámetros aproximados por capa (ignorando las normas)?
4 d²8 d²12 d²✓16 d²
Attention:
4·d²(Q,K,V,O). FFN:2·d·d_ff = 8·d². Total ≈12·d². Regla del pulgar que coincide con GPT-3 y LLaMA con un margen del 5 %.
q-17-02 — La pérdida de entrenamiento es sospechosamente baja (única)¶
Mini-GPT entrena hasta una pérdida de 1e-4 en 10 pasos, muy por debajo de H(corpus) ≈ 1.5. El muestreo produce "
- La tasa de aprendizaje es demasiado alta
- No se está aplicando la máscara causal (el modelo puede ver el futuro durante el entrenamiento) ✓
- La inicialización está mal
- El optimizador está roto
Una pérdida por debajo de
H(corpus)es matemáticamente imposible sin fuga. El truco de "espiar el siguiente token" falla en inferencia → BoS collapse.
q-17-03 — Por qué los embeddings atados ahorran parámetros (libre)¶
Se espera que contenga: V.
Sin atar:
2·V·d. Atados:V·d. AhorraV·dparámetros — para GPT-3 (V=50257, d=12288) son ~620M de parámetros.
q-17-04 — Gradiente Pre-LN (única)¶
En y = x + f(LN(x)), el gradiente ∂y/∂x es:
- Exactamente
I I + ∂f∘LN/∂x✓∂LN/∂x · (I + ∂f/∂x)∂LN/∂x · ∂f/∂x
La suma residual da
I(término identidad) directamente; Pre-LN mantiene el LN dentro def. El término identidad garantiza una autopista de gradiente con ganancia unitaria.
q-17-05 — Calcula el conteo de parámetros del mini-GPT del §A13 (única)¶
V=512, d=64, L=2, d_ff=256, RoPE, cabeza LM atada, sin sesgos.
- ~32K
- ~65K
- ~131K ✓
- ~262K
32,768 + 2·49,280 + 64 ≈ 131,392. Véase Fase 17 §04.