English · Español

Fase 17 — Quiz (espejo legible para humanos)¶

🇪🇸 Espejo legible del canónico data/quizzes/phase-17-mini-gpt.yaml.

Fuente: data/quizzes/phase-17-mini-gpt.yaml.

q-17-01 — Conteo de parámetros por capa (única)¶

Un bloque transformer Pre-LN con d_model = d, d_ff = 4d, sin sesgos. ¿Parámetros aproximados por capa (ignorando las normas)?

4 d²
8 d²
12 d² ✓
16 d²

Attention: 4·d² (Q,K,V,O). FFN: 2·d·d_ff = 8·d². Total ≈ 12·d². Regla del pulgar que coincide con GPT-3 y LLaMA con un margen del 5 %.

q-17-02 — La pérdida de entrenamiento es sospechosamente baja (única)¶

Mini-GPT entrena hasta una pérdida de 1e-4 en 10 pasos, muy por debajo de H(corpus) ≈ 1.5. El muestreo produce " ...". ¿Causa más probable?

La tasa de aprendizaje es demasiado alta
No se está aplicando la máscara causal (el modelo puede ver el futuro durante el entrenamiento) ✓
La inicialización está mal
El optimizador está roto

Una pérdida por debajo de H(corpus) es matemáticamente imposible sin fuga. El truco de "espiar el siguiente token" falla en inferencia → BoS collapse.

q-17-03 — Por qué los embeddings atados ahorran parámetros (libre)¶

Se espera que contenga: V.

Sin atar: 2·V·d. Atados: V·d. Ahorra V·d parámetros — para GPT-3 (V=50257, d=12288) son ~620M de parámetros.

q-17-04 — Gradiente Pre-LN (única)¶

En y = x + f(LN(x)), el gradiente ∂y/∂x es:

Exactamente I
I + ∂f∘LN/∂x ✓
∂LN/∂x · (I + ∂f/∂x)
∂LN/∂x · ∂f/∂x

La suma residual da I (término identidad) directamente; Pre-LN mantiene el LN dentro de f. El término identidad garantiza una autopista de gradiente con ganancia unitaria.

q-17-05 — Calcula el conteo de parámetros del mini-GPT del §A13 (única)¶

V=512, d=64, L=2, d_ff=256, RoPE, cabeza LM atada, sin sesgos.

~32K
~65K
~131K ✓
~262K

32,768 + 2·49,280 + 64 ≈ 131,392. Véase Fase 17 §04.