Skip to content

Lynx Cortex

Quizzes.es

borjatarraso/lynx-cortex

English · Español

Fase 16 — Quiz (espejo legible)¶

Espejo legible del canónico data/quizzes/phase-16-positional-encodings.yaml.

Fuente: data/quizzes/phase-16-positional-encodings.yaml.

q-16-01 — ¿Por qué la attention es equivariante bajo permutación sin PE? (única)¶

softmax(P Q K^T P^T / sqrt(d_k)) P V = P softmax(Q K^T / sqrt(d_k)) V ✓
softmax(Q K^T / sqrt(d_k)) V = softmax(Q^T K / sqrt(d_k)) V
softmax(Q K^T) V = V softmax(Q K^T)
softmax es invariante bajo cualquier transformación unitaria

La permutación P conmuta a través de todo el bloque de attention — ninguna operación depende de la posición absoluta.

q-16-02 — ¿Qué codifica RoPE que el sinusoidal no? (múltiple)¶

RoPE codifica la posición relativa mediante una identidad de producto escalar ✓
RoPE se aplica dentro del cómputo de attention, no en la entrada ✓
RoPE tiene parámetros aprendibles; el sinusoidal no
RoPE extrapola mejor a longitudes más allá de la distribución de entrenamiento ✓

Tanto RoPE como el sinusoidal puro tienen cero parámetros aprendibles.

q-16-03 — Encuentra el bug: `cos(PE[t], PE[t+1]) ≈ 0` (libre)¶

Se espera que contenga: smooth.

El PE sinusoidal tiene relaciones de fase suaves — las posiciones adyacentes deberían tener similitud coseno alta. Filas adyacentes ortogonales significan que el PE fue barajado o aleatorizado.

q-16-04 — ¿Cuándo gana RoPE en §A13? (única)¶

Sinusoidal (es el original)
RoPE (la posición relativa extrapola mejor) ✓
Son idénticos en extrapolación
PE aprendido con weight decay

La identidad de posición relativa de RoPE se mantiene en distribución para cualquier longitud. Sinusoidal a T=20 está fuera de distribución (OOD).

q-16-05 — RoPE: identidad de posición relativa (única)¶

Para RoPE, el producto escalar (R_θ(t) q) · (R_θ(s) k) depende solo de qué cantidad?

t + s
t - s ✓
t × s
max(t, s)

R_θ(t)^T R_θ(s) = R_θ(s - t). El producto escalar depende solo del offset relativo. Su et al. 2021 §3.4.