Skip to content

English · Español

Fase 14 — Quiz (espejo legible)

🇪🇸 Espejo legible del canónico data/quizzes/phase-14-pre-transformer-sequence.yaml.

Fuente: data/quizzes/phase-14-pre-transformer-sequence.yaml.


q-14-01 — Gradiente de RNN vanilla en profundidad (single)

  • O(T)
  • O(r^T)
  • O(log T)
  • O(T^r)

Cada paso hacia atrás multiplica por W_h · diag(1 - h²) ≈ W_h. Compuesto T-1 veces: O(r^(T-1)) que es O(r^T). r<1 se desvanece; r>1 explota.


q-14-02 — ¿Qué hace controlable el estado de celda del LSTM? (multi)

  • Es exactamente f_t, sin matriz de pesos multiplicada
  • Está acotado en [0, 1] por paso
  • Está acotado en [-1, 1] por paso
  • Se puede aprender que esté cerca de 1 (sin olvidar)

∂c_t/∂c_{t-1} = f_t exactamente. Con sigmoid, f_t ∈ (0, 1). La red aprende f_t ≈ 1 cuando debe recordar — la autopista del gradiente del LSTM.


q-14-03 — Longitud de camino de salida a entrada (free)

Se espera que contenga: 1.

O(1) — un matmul conecta cada entrada a cada salida. RNN/LSTM es O(T). Vaswani et al. 2017, Tabla 1.


q-14-04 — Encuentra el bug: el LSTM diverge inmediatamente (single)

Una ejecución de entrenamiento de LSTM produce pérdida NaN en 20 pasos. El estado de celda supera 1e30 justo antes del NaN.

  • Escala de inicialización incorrecta en h_0
  • Sigmoid ausente en las puertas forget/input/output
  • Tanh ausente en el candidato g
  • Dimensión de batch incorrecta en el einsum

Sin σ en f, la puerta forget no está acotada y c_t crece sin límite. Véase break/00-break-disable-lstm-gate-sigmoid.md.


q-14-05 — ¿Por qué attention bate a RNN incluso en secuencias cortas? (free)

Se espera que contenga: path.

Incluso con T=5, el gradiente de la RNN en el primer token se multiplica por r^4 ≈ 0.41 (r=0.8), mientras el gradiente de attention es O(1). El argumento del path-length se aplica en todo T.