Skip to content

English · Español

Fase 17 — Quiz (espejo legible para humanos)

🇪🇸 Espejo legible del canónico data/quizzes/phase-17-mini-gpt.yaml.

Fuente: data/quizzes/phase-17-mini-gpt.yaml.


q-17-01 — Conteo de parámetros por capa (única)

Un bloque transformer Pre-LN con d_model = d, d_ff = 4d, sin sesgos. ¿Parámetros aproximados por capa (ignorando las normas)?

  • 4 d²
  • 8 d²
  • 12 d²
  • 16 d²

Attention: 4·d² (Q,K,V,O). FFN: 2·d·d_ff = 8·d². Total ≈ 12·d². Regla del pulgar que coincide con GPT-3 y LLaMA con un margen del 5 %.


q-17-02 — La pérdida de entrenamiento es sospechosamente baja (única)

Mini-GPT entrena hasta una pérdida de 1e-4 en 10 pasos, muy por debajo de H(corpus) ≈ 1.5. El muestreo produce " ...". ¿Causa más probable?

  • La tasa de aprendizaje es demasiado alta
  • No se está aplicando la máscara causal (el modelo puede ver el futuro durante el entrenamiento)
  • La inicialización está mal
  • El optimizador está roto

Una pérdida por debajo de H(corpus) es matemáticamente imposible sin fuga. El truco de "espiar el siguiente token" falla en inferencia → BoS collapse.


q-17-03 — Por qué los embeddings atados ahorran parámetros (libre)

Se espera que contenga: V.

Sin atar: 2·V·d. Atados: V·d. Ahorra V·d parámetros — para GPT-3 (V=50257, d=12288) son ~620M de parámetros.


q-17-04 — Gradiente Pre-LN (única)

En y = x + f(LN(x)), el gradiente ∂y/∂x es:

  • Exactamente I
  • I + ∂f∘LN/∂x
  • ∂LN/∂x · (I + ∂f/∂x)
  • ∂LN/∂x · ∂f/∂x

La suma residual da I (término identidad) directamente; Pre-LN mantiene el LN dentro de f. El término identidad garantiza una autopista de gradiente con ganancia unitaria.


q-17-05 — Calcula el conteo de parámetros del mini-GPT del §A13 (única)

V=512, d=64, L=2, d_ff=256, RoPE, cabeza LM atada, sin sesgos.

  • ~32K
  • ~65K
  • ~131K
  • ~262K

32,768 + 2·49,280 + 64 ≈ 131,392. Véase Fase 17 §04.