Skip to content

English · Español

Fase 16 — Quiz (espejo legible)

Espejo legible del canónico data/quizzes/phase-16-positional-encodings.yaml.

Fuente: data/quizzes/phase-16-positional-encodings.yaml.


q-16-01 — ¿Por qué la attention es equivariante bajo permutación sin PE? (única)

  • softmax(P Q K^T P^T / sqrt(d_k)) P V = P softmax(Q K^T / sqrt(d_k)) V
  • softmax(Q K^T / sqrt(d_k)) V = softmax(Q^T K / sqrt(d_k)) V
  • softmax(Q K^T) V = V softmax(Q K^T)
  • softmax es invariante bajo cualquier transformación unitaria

La permutación P conmuta a través de todo el bloque de attention — ninguna operación depende de la posición absoluta.


q-16-02 — ¿Qué codifica RoPE que el sinusoidal no? (múltiple)

  • RoPE codifica la posición relativa mediante una identidad de producto escalar
  • RoPE se aplica dentro del cómputo de attention, no en la entrada
  • RoPE tiene parámetros aprendibles; el sinusoidal no
  • RoPE extrapola mejor a longitudes más allá de la distribución de entrenamiento

Tanto RoPE como el sinusoidal puro tienen cero parámetros aprendibles.


q-16-03 — Encuentra el bug: cos(PE[t], PE[t+1]) ≈ 0 (libre)

Se espera que contenga: smooth.

El PE sinusoidal tiene relaciones de fase suaves — las posiciones adyacentes deberían tener similitud coseno alta. Filas adyacentes ortogonales significan que el PE fue barajado o aleatorizado.


q-16-04 — ¿Cuándo gana RoPE en §A13? (única)

  • Sinusoidal (es el original)
  • RoPE (la posición relativa extrapola mejor)
  • Son idénticos en extrapolación
  • PE aprendido con weight decay

La identidad de posición relativa de RoPE se mantiene en distribución para cualquier longitud. Sinusoidal a T=20 está fuera de distribución (OOD).


q-16-05 — RoPE: identidad de posición relativa (única)

Para RoPE, el producto escalar (R_θ(t) q) · (R_θ(s) k) depende solo de qué cantidad?

  • t + s
  • t - s
  • t × s
  • max(t, s)

R_θ(t)^T R_θ(s) = R_θ(s - t). El producto escalar depende solo del offset relativo. Su et al. 2021 §3.4.