English · Español

Fase 14 — Quiz (espejo legible)¶

🇪🇸 Espejo legible del canónico data/quizzes/phase-14-pre-transformer-sequence.yaml.

Fuente: data/quizzes/phase-14-pre-transformer-sequence.yaml.

q-14-01 — Gradiente de RNN vanilla en profundidad (single)¶

O(T)
O(r^T) ✓
O(log T)
O(T^r)

Cada paso hacia atrás multiplica por W_h · diag(1 - h²) ≈ W_h. Compuesto T-1 veces: O(r^(T-1)) que es O(r^T). r<1 se desvanece; r>1 explota.

q-14-02 — ¿Qué hace controlable el estado de celda del LSTM? (multi)¶

Es exactamente f_t, sin matriz de pesos multiplicada ✓
Está acotado en [0, 1] por paso ✓
Está acotado en [-1, 1] por paso
Se puede aprender que esté cerca de 1 (sin olvidar) ✓

∂c_t/∂c_{t-1} = f_t exactamente. Con sigmoid, f_t ∈ (0, 1). La red aprende f_t ≈ 1 cuando debe recordar — la autopista del gradiente del LSTM.

q-14-03 — Longitud de camino de salida a entrada (free)¶

Se espera que contenga: 1.

O(1) — un matmul conecta cada entrada a cada salida. RNN/LSTM es O(T). Vaswani et al. 2017, Tabla 1.

q-14-04 — Encuentra el bug: el LSTM diverge inmediatamente (single)¶

Una ejecución de entrenamiento de LSTM produce pérdida NaN en 20 pasos. El estado de celda supera 1e30 justo antes del NaN.

Escala de inicialización incorrecta en h_0
Sigmoid ausente en las puertas forget/input/output ✓
Tanh ausente en el candidato g
Dimensión de batch incorrecta en el einsum

Sin σ en f, la puerta forget no está acotada y c_t crece sin límite. Véase break/00-break-disable-lstm-gate-sigmoid.md.

q-14-05 — ¿Por qué attention bate a RNN incluso en secuencias cortas? (free)¶

Se espera que contenga: path.

Incluso con T=5, el gradiente de la RNN en el primer token se multiplica por r^4 ≈ 0.41 (r=0.8), mientras el gradiente de attention es O(1). El argumento del path-length se aplica en todo T.