English · Español
Fase 16 — Codificaciones posicionales (positional encodings)¶
Requiere: 15 — Attention desde cero Enseña:
positional-encoding·rope·sinusoidal·extrapolationSalta a cualquier capítulo desde el índice de referencia de fases.
Mapa del capítulo¶
Preescrito según A12; alcance de gramática verbal inglesa según A13. Esta entrada de fase existe antes de que Borja comience a estudiar. La teoría y los enunciados de los problemas del laboratorio son borradores estables; las soluciones se escriben justo a tiempo al abrir la fase.
🇪🇸 Attention sin posiciones es permutación-equivariante: para el modelo,
I work heyhe work Ison el mismo conjunto de tokens reordenado — pero la respuesta correcta a... he ___(works) depende crucialmente de qué viene antes del slot. Esta fase añade la información posicional como una pieza separada al embedding (o, en RoPE, como una rotación de Q y K). Implementamos tres variantes y comparamos extrapolación más allá del largo de entrenamiento.
Objetivo¶
Implementar tres esquemas de codificación posicional (positional encoding) — sinusoidal, aprendida, RoPE — y comparar su comportamiento. Al final de la Fase 16:
- Borja puede demostrar la equivarianza por permutación de attention con un contraejemplo de 3 tokens (sobre un fragmento de gramática verbal como
I work he). - Los tres esquemas de PE existen en
src/minimodel/positional/. - La propiedad de posición relativa de RoPE se verifica numéricamente.
- Borja tiene un argumento escrito de por qué el Mini-GPT de la Fase 17 debería usar RoPE (opción por defecto preferida) o sinusoidal (alternativa de respaldo).
La Fase 16 es una fase de taller. Tres implementaciones, un experimento de comparación, decide cuál usar aguas abajo. Planifica entre 8 y 15 horas de estudio.
Orden de lectura¶
theory/00-motivation.md— equivarianza por permutación, el problema que estamos resolviendo.theory/01-sinusoidal.md— la PE original de Vaswani. Deriva la fórmula.theory/02-learned-vs-sinusoidal.md— cuándo gana cada una; por qué ambas fallan en extrapolación; el hueco que RoPE/ALiBi llenan.theory/03-rope.md— derivación de RoPE, la propiedad de posición relativa, el truco de implementación.lab/00-permutation-equivariance.md— demuestra que attention sin PE no distingue el orden de las palabras.lab/01-sinusoidal-pe.md— implementa y visualiza la PE sinusoidal.lab/02-rope-implementation.md— implementa RoPE; verifica numéricamente la propiedad de posición relativa.lab/03-extrapolation-compare.md— comparación cara a cara más allá del largo de entrenamiento.
solutions/ está vacío durante el preescrito.
Definición de hecho (DoD)¶
Ver PHASE_16_PLAN.md §6. En resumen:
- Tres esquemas de PE implementados.
- Contraejemplo de equivarianza por permutación commiteado.
- Verificación numérica de RoPE pasa.
- Gráfico de comparación de extrapolación commiteado; elige un ganador para la Fase 17.
Lo que esta fase intencionadamente NO cubre¶
- Sesgos de posición relativa estilo T5. Mención de un párrafo en
theory/02. No implementado. - ALiBi. Mención de un párrafo. No implementado (extensión opcional de Borja).
- xPos, NoPE, otras variantes de 2023+. Fuera de alcance.
- Posiciones 2D (vision transformers). Territorio de la Fase 22, si acaso.
- Entrenamiento consciente de la posición. No entrenamos en la Fase 16. Sólo forward-pass y comparación de patrones.
El alcance de la Fase 16 es las tres codificaciones posicionales canónicas y su comportamiento de extrapolación. Nada más.
Lecturas recomendadas¶
Opcional — enriquece pero no es necesario para aprobar la fase.
- 📄 RoFormer: Enhanced Transformer with Rotary Position Embedding — Su et al. · 2021. RoPE, el esquema posicional que usan los LLM modernos.
- 📄 Train Short, Test Long: Attention with Linear Biases (ALiBi) — Press, Smith, Lewis · 2021. la alternativa a RoPE amigable con la extrapolación.