English · Español
Fase 16 — Quiz (espejo legible)¶
Espejo legible del canónico
data/quizzes/phase-16-positional-encodings.yaml.
Fuente: data/quizzes/phase-16-positional-encodings.yaml.
q-16-01 — ¿Por qué la attention es equivariante bajo permutación sin PE? (única)¶
softmax(P Q K^T P^T / sqrt(d_k)) P V = P softmax(Q K^T / sqrt(d_k)) V✓softmax(Q K^T / sqrt(d_k)) V = softmax(Q^T K / sqrt(d_k)) Vsoftmax(Q K^T) V = V softmax(Q K^T)- softmax es invariante bajo cualquier transformación unitaria
La permutación
Pconmuta a través de todo el bloque de attention — ninguna operación depende de la posición absoluta.
q-16-02 — ¿Qué codifica RoPE que el sinusoidal no? (múltiple)¶
- RoPE codifica la posición relativa mediante una identidad de producto escalar ✓
- RoPE se aplica dentro del cómputo de attention, no en la entrada ✓
- RoPE tiene parámetros aprendibles; el sinusoidal no
- RoPE extrapola mejor a longitudes más allá de la distribución de entrenamiento ✓
Tanto RoPE como el sinusoidal puro tienen cero parámetros aprendibles.
q-16-03 — Encuentra el bug: cos(PE[t], PE[t+1]) ≈ 0 (libre)¶
Se espera que contenga: smooth.
El PE sinusoidal tiene relaciones de fase suaves — las posiciones adyacentes deberían tener similitud coseno alta. Filas adyacentes ortogonales significan que el PE fue barajado o aleatorizado.
q-16-04 — ¿Cuándo gana RoPE en §A13? (única)¶
- Sinusoidal (es el original)
- RoPE (la posición relativa extrapola mejor) ✓
- Son idénticos en extrapolación
- PE aprendido con weight decay
La identidad de posición relativa de RoPE se mantiene en distribución para cualquier longitud. Sinusoidal a T=20 está fuera de distribución (OOD).
q-16-05 — RoPE: identidad de posición relativa (única)¶
Para RoPE, el producto escalar (R_θ(t) q) · (R_θ(s) k) depende solo de qué cantidad?
t + st - s✓t × smax(t, s)
R_θ(t)^T R_θ(s) = R_θ(s - t). El producto escalar depende solo del offset relativo. Su et al. 2021 §3.4.