English · Español
Fase 14 — Quiz (espejo legible)¶
🇪🇸 Espejo legible del canónico
data/quizzes/phase-14-pre-transformer-sequence.yaml.
Fuente: data/quizzes/phase-14-pre-transformer-sequence.yaml.
q-14-01 — Gradiente de RNN vanilla en profundidad (single)¶
- O(T)
- O(r^T) ✓
- O(log T)
- O(T^r)
Cada paso hacia atrás multiplica por
W_h · diag(1 - h²) ≈ W_h. Compuesto T-1 veces: O(r^(T-1)) que es O(r^T). r<1 se desvanece; r>1 explota.
q-14-02 — ¿Qué hace controlable el estado de celda del LSTM? (multi)¶
- Es exactamente f_t, sin matriz de pesos multiplicada ✓
- Está acotado en [0, 1] por paso ✓
- Está acotado en [-1, 1] por paso
- Se puede aprender que esté cerca de 1 (sin olvidar) ✓
∂c_t/∂c_{t-1} = f_texactamente. Con sigmoid,f_t ∈ (0, 1). La red aprendef_t ≈ 1cuando debe recordar — la autopista del gradiente del LSTM.
q-14-03 — Longitud de camino de salida a entrada (free)¶
Se espera que contenga: 1.
O(1) — un matmul conecta cada entrada a cada salida. RNN/LSTM es O(T). Vaswani et al. 2017, Tabla 1.
q-14-04 — Encuentra el bug: el LSTM diverge inmediatamente (single)¶
Una ejecución de entrenamiento de LSTM produce pérdida NaN en 20 pasos. El estado de celda supera 1e30 justo antes del NaN.
- Escala de inicialización incorrecta en h_0
- Sigmoid ausente en las puertas forget/input/output ✓
- Tanh ausente en el candidato g
- Dimensión de batch incorrecta en el einsum
Sin σ en
f, la puerta forget no está acotada yc_tcrece sin límite. Véasebreak/00-break-disable-lstm-gate-sigmoid.md.
q-14-05 — ¿Por qué attention bate a RNN incluso en secuencias cortas? (free)¶
Se espera que contenga: path.
Incluso con T=5, el gradiente de la RNN en el primer token se multiplica por
r^4 ≈ 0.41(r=0.8), mientras el gradiente de attention es O(1). El argumento del path-length se aplica en todo T.