English · Español
00 — Motivación: las técnicas existen para resolver cuellos de botella, no como moda¶
🇪🇸 La pregunta correcta al leer un paper de arquitectura nueva no es "¿qué hace?", es "¿qué cuello de botella resuelve, y lo tengo yo?". El currículum entero está pensado para que Borja desarrolle ese reflejo: cuando aparece una técnica brillante, identificar el bottleneck, comprobar si lo tiene, decidir. Para el tutor de gramática, la respuesta casi siempre es "no".
Terminaste la Fase 35 con vocabulario sobre entrenamiento e inferencia distribuidos. Puedes leer las fuentes de Megatron y FSDP. Sabes cuándo aplican TP, PP, FSDP y DDP.
Esta fase amplía el survey: arquitecturas de frontera. MoE (Mixture of Experts), MLA, modelos de espacio de estados (RWKV / Mamba / Jamba), variantes de speculative decoding, "reasoning models". Son las arquitecturas y técnicas en torno a las que el campo se ha agrupado en 2023–2026 para superar los techos del transformer denso.
La posición ingenua sobre este material es: "apréndelas todas; elige la más nueva". Esa posición es errónea. Cada una de estas técnicas fue diseñada para aliviar un cuello de botella específico. Aplícala a una tarea que no tiene ese cuello de botella y obtienes resultados netos negativos: más código, más modos de fallo, entrenamiento más lento, ninguna ganancia.
La Fase 36 entrena el reflejo opuesto.
Los cuatro cuellos de botella y las cuatro familias¶
| Técnica | Cuello de botella que aborda | Mecanismo |
|---|---|---|
| MoE (Mixture of Experts) | El conteo de parámetros crece más rápido que el presupuesto de cómputo | Routing disperso: top-\(k\) de \(E\) FFN experts por token. Parámetros totales ∝ \(E\); FLOPs/token ∝ \(k\). |
| MLA (Multi-Latent Attention) | Memoria de KV cache en contexto largo | K y V cacheados como latentes de bajo rango; reconstruidos bajo demanda. |
| Mamba / RWKV (modelos de espacio de estados) | El tiempo cuadrático de la attention y el crecimiento del KV cache en contexto muy largo | Reemplazar la attention por una recurrencia. Tiempo lineal, memoria constante por capa. |
| Speculative decoding | Latencia de decode (memory-bound, baja intensidad aritmética) | Un modelo draft propone \(k\) tokens; el verificador acepta el prefijo correcto más largo. 2–5× tokens por forward. |
Estos cuatro cuellos de botella son reales y significativos a la escala de modelos de frontera (10B+ parámetros, contexto de varios miles de tokens, inferencia multiusuario). El tutor de gramática — con ~500k parámetros, contexto máximo de ~32 tokens, inferencia mono-usuario en CPU — no tiene ninguno de ellos.
Esa es la observación central a la que Borja llegará al final de esta fase, para cada técnica independientemente. Ninguna arquitectura de frontera mejoraría significativamente el tutor de gramática. Una attention densa de una sola capa sobre un vocabulario de 600 formas ya es la herramienta correcta.
Por qué esto no es desinflacionario¶
La conclusión "no necesitas arquitecturas fancy aquí" suena antiintelectual: "no aprendas cosas que no usarás". Esa es la lectura equivocada. La fase produce tres piezas de valor:
- Puedes leer cualquier paper o codebase actual sin pestañear. El contexto de los modelos de frontera está en cada paper más reciente que Borja vaya a coger. El vocabulario importa incluso cuando las técnicas no aplican.
- Aprendes a juzgar técnicas frente a cuellos de botella, no frente a marketing. Esta habilidad generaliza. Dentro de seis meses, "speculative decoding vía X" aparecerá en Hacker News; la primera pregunta de Borja será "¿con qué cuello de botella ayuda X, y mi workload lo tiene?" — no "¿debería añadir X?".
- Ves los límites de las técnicas de frontera. MoE tiene sus propios modos de fallo (desbalance de carga, inestabilidad de entrenamiento). MLA cambia el patrón de cómputo de formas que pueden no ser siempre netamente positivas. Mamba es competitivo solo cuando el mecanismo selectivo funciona. Nada de esto está en el material de marketing. Los ejercicios de lectura de esta fase sacan a la luz los tradeoffs honestos.
Cómo está estructurada la fase¶
Cada una de las cuatro familias recibe:
- Un archivo de teoría con las matemáticas (conteo de parámetros, coste de comunicación, cuentas de memoria).
- Un diagrama que muestra cómo la técnica modifica el bloque transformer estándar.
- Un ejercicio corto de lectura sobre una implementación de referencia.
- Un juicio específico para el tutor de gramática: ¿ayudaría esto? Si no, ¿por qué no?
Los labs son deliberadamente cortos. No hay una implementación completa de entrenamiento de MoE, ni una reproducción completa de Mamba. La cuenta de coste-vs-aprendizaje no lo soporta a nuestra escala. El lab del MoE de 2 experts (lab 00) es intencionalmente un stub — suficiente para ver la softmax del routing dispararse, la load-balance loss funcionar, los dos experts divergir. No suficiente para reclamar "he implementado Mixtral".
El test del tutor de gramática¶
Para cada técnica sobre la que leas en esta fase, pregunta:
- ¿Cuál es su cuello de botella? Escríbelo en una frase.
- ¿El tutor de gramática tiene ese cuello de botella? Escribe el número de FLOPs / memoria / latencia para el tutor. Compara.
- ¿Cuánto me costaría la técnica? Código nuevo, nuevos modos de fallo, nueva superficie de tuning.
- Veredicto: aplicar / aplazar / nunca.
Si no puedes contestar (1), todavía no entiendes la técnica. Releer el archivo de teoría. Si no puedes contestar (2), no has hecho las cuentas para el tutor — vuelve al conteo de parámetros de la Fase 17 y a las cuentas de KV cache de la Fase 22.
Para el tutor de gramática, tus veredictos casi siempre serán nunca. Esa es la lección.
Cómo conecta esto con el resto del currículum¶
- Fase 17 construyó MiniGPT-grammar. La Fase 36 considera arquitecturas alternativas para ese mismo modelo y concluye que la elección original era correcta.
- Fase 33 construyó el servidor de inferencia con batching continuo. La Fase 36 pregunta "¿ayudaría speculative decoding a mi servidor?" y concluirás "no — mono-usuario, baja concurrencia, bajo cómputo por token hacen que el overhead del modelo draft sea netamente negativo".
- Fase 35 introdujo el paralelismo de experts como vocabulario; esta fase salda esa deuda mostrando qué es MoE (de modo que el paralelismo de experts tenga un referente).
- Fase 38 hace tradeoffs coste-vs-calidad en la capa de planificación de capacidad; los juicios "¿ayudaría esto?" de la Fase 36 alimentan esas decisiones de planificación.
- Fase 39 capstone: tendrás la tentación de añadir una arquitectura llamativa para "demostrar" que aprendiste. La Fase 36 te inocula contra esa tentación.
Así que la Fase 36 es la fase para resistir la moda en la elección de arquitectura. Las demás fases construyen; esta juzga.
Recapitulación de un párrafo¶
Cada arquitectura de frontera de esta fase se diseñó para aliviar un cuello de botella específico — conteo de parámetros (MoE), memoria de KV cache (MLA), attention cuadrática (Mamba), latencia de decode (speculative decoding). El tutor de gramática no tiene ninguno de esos cuellos de botella. La misión de la Fase 36 es enseñar el reflejo de mapear técnica → cuello de botella → "¿lo tengo?" → veredicto. Denso en conceptos, ligero en implementación. Para el tutor de gramática, el veredicto honesto sobre cada familia es "aquí no ayuda" — y aprender a decir eso es más difícil que aprender a copiar la técnica.
Siguiente: theory/01-moe.md.