English · Español
Conceptos de frontera y disruptivos¶
El currículo de 42 fases construye el stack duradero — las ideas que seguirán siendo ciertas dentro de diez años. Esta página sigue la frontera en movimiento: técnicas que están reconfigurando el campo ahora mismo. Cada entrada es una orientación de un párrafo, no una derivación, con un puntero a dónde conecta con el currículo.
Cómo usar esta página
Léela una vez para tener el mapa, luego vuelve a ella cuando una fase mencione una idea de frontera. Nada de esto es necesario para terminar el currículo — es el "qué viene después" más allá de la Fase 36 y la Fase 40.
Arquitecturas más allá de la attention¶
- State-space models (Mamba / S4). Modelos de secuencia cuyo coste crece linealmente con la longitud en lugar de cuadráticamente, usando un scan selectivo en vez de attention de todos contra todos. Desafían al transformer en contexto largo. Conectan con la Fase 14 (recurrencia) y la Fase 36.
- Mixture-of-Experts (MoE). Sustituye un único bloque feed-forward grande por muchos bloques "expertos" y un router que activa solo unos pocos por token — más parámetros, cómputo aproximadamente constante por token. La forma dominante de escalar capacidad de forma barata. Conecta con la Fase 17 y la Fase 36.
- Attention lineal e híbrida. Aproximaciones kernelizadas o de bajo rango de la attention (e híbridos que intercalan attention con capas SSM) cambian un poco de calidad por coste subcuadrático.
Attention y decodificación más rápidas y baratas¶
- FlashAttention-2 / 3. Reescrituras sucesivas de la attention exacta que mantienen el softmax en la SRAM rápida y solapan trabajo con los tensor cores de la GPU — grandes aceleraciones con matemáticas idénticas. Conecta con la Fase 27.
- Grouped-query y multi-query attention (GQA / MQA / MLA). Comparten heads de key/value entre los heads de query para encoger la KV cache — la mayor palanca individual sobre la memoria de decode. MLA (multi-head latent attention) comprime la cache aún más. Conecta con la Fase 22 y la Fase 27.
- Speculative y self-speculative decoding (Medusa, EAGLE). Un modelo draft pequeño propone varios tokens; el modelo grande los verifica en una sola pasada — menos pasos secuenciales, misma distribución de salida. Conecta con la Fase 21 y la Fase 36.
- Cuantización y compresión de la KV cache. Almacena la KV cache en INT8/INT4 o desaloja tokens con poca attention para encajar contexto más largo en la misma memoria.
Contexto y posición¶
- RoPE scaling (YaRN, NTK-aware, position interpolation). Trucos baratos que estiran un modelo entrenado a 4k tokens hasta 32k–128k reconfigurando las frecuencias rotatorias. Conecta con la Fase 16.
- Ring y context parallelism. Reparte una única secuencia muy larga entre GPUs para que la attention pueda abarcar millones de tokens. Conecta con la Fase 35.
Entrenamiento y precisión¶
- Entrenamiento en FP8 y microscaling (MXFP). El hardware ya entrena en floats de 8 bits con escalas por bloque — aproximadamente el doble de throughput que BF16. Conecta con la Fase 02 y la Fase 26.
- Muon / Shampoo (optimizadores conscientes de matrices). Optimizadores cuasi de segundo orden que precondicionan los gradientes con estructura matricial, convergiendo más rápido que Adam en modelos grandes. Conecta con la Fase 04.
Alineamiento y razonamiento¶
- DPO y sus sucesores (IPO, KTO, ORPO). Alineamiento por preferencias sin un modelo de recompensa separado ni un bucle PPO — una pérdida tipo clasificación directamente sobre pares preferido/rechazado. Conecta con la Extensión X3.
- Test-time compute / modelos de razonamiento. Modelos entrenados para gastar más tokens "pensando" (largas cadenas de pensamiento, búsqueda, autoverificación) antes de responder — cambiando coste de inferencia por precisión en problemas difíciles. Conecta con la Fase 32.
- RLAIF y Constitutional AI. Sustituye las etiquetas de preferencia humana por feedback de otro modelo guiado por una constitución escrita. Conecta con la Extensión X3.
Cómo se mapea esto al currículo¶
Todo lo anterior es una optimización de, o un sucesor de, una primitiva que construyes a mano en las fases centrales. Ese es el objetivo: una vez que has derivado la attention, la KV cache, el muestreo y la cuantización desde cero, cada entrada de frontera se lee como una cantidad conocida con una sola idea nueva — no como magia.