English · Español
Fase 36 — Arquitecturas de frontera¶
Requiere: 35 — Entrenamiento e inferencia distribuidos Enseña:
mixture-of-experts·mamba·state-space-models·speculative-decodingSalta a cualquier capítulo desde el índice de referencia de fases.
Mapa del capítulo¶
Pre-escrita según A12. La teoría y los enunciados de los labs son borradores estables; las soluciones se redactan justo a tiempo al abrir la fase.
🇪🇸 Una gira de arquitecturas modernas: MoE, MLA, RWKV/Mamba, speculative decoding, "reasoning models". La pregunta central de toda la fase no es "¿cómo funciona?", es "¿me sirve para esto?". Spoiler: para el tutor de gramática, casi nunca.
Objetivo¶
Recorrer las cuatro familias de arquitecturas de frontera (MoE, MLA, modelos de espacio de estados, speculative decoding + reasoning) con suficiente profundidad como para que Borja pueda leer cualquier paper o codebase actual, escribir las cuentas de FLOPs y memoria en una servilleta y — para cada técnica — juzgar si ayudaría al tutor de gramática.
El juicio es la parte que carga el peso. Cada técnica resuelve un cuello de botella específico. El tutor de gramática no tiene ninguno de esos cuellos de botella. La Fase 36 convierte ese desajuste en la lección: a veces la respuesta correcta es un alcance más pequeño, y reconocerlo es más difícil que copiar una arquitectura llamativa.
La fase es conscientemente densa en conceptos, ligera en implementación (§4 de la spec). Un pequeño experimento de MoE (Mixture of Experts) en CPU local, una derivación de MLA con lápiz y papel, un recorrido de lectura de Mamba, un survey de speculative decoding. Cero coste en la nube. Cero código de producción.
Orden de lectura¶
theory/00-motivation.md— por qué "¿es esta la herramienta correcta para mi tarea?" es la única pregunta que importa en los surveys de arquitectura.theory/01-moe.md— MoE (Mixture of Experts): routing, balanceo de carga, paralelismo de experts. Cuello de botella que aborda: parámetros creciendo más rápido que el cómputo.theory/02-mla.md— Multi-Latent Attention (DeepSeek): caché latente de bajo rango. Cuello de botella que aborda: memoria de KV cache en contexto largo.theory/03-state-space-models.md— RWKV, Mamba, S4. Selective scan. Híbridos (Jamba). Cuello de botella que aborda: tiempo cuadrático de la attention y crecimiento del KV cache en contexto muy largo.theory/04-speculative-and-reasoning.md— Familia de speculative decoding (vanilla / Medusa / EAGLE / Lookahead) + "reasoning models" / escalado de cómputo en test-time. Cuello de botella que aborda: latencia de decode.lab/00-moe-on-grammar-tutor.md— entrenar una variante MoE de 2 experts en local. Confirmar: no ayuda.lab/01-mla-math-exercise.md— derivar la reducción de KV cache de MLA. Confirmar: irrelevante a nuestra escala.lab/02-mamba-walkthrough.md— lectura anotada delselective_scandemamba-minimal.lab/03-speculative-survey.md— survey de una página + recomendación para el tutor de gramática.
solutions/ está vacío durante la pre-escritura — se rellena al abrir la fase, una vez que el MiniGPT de la Fase 17 y el bucle de entrenamiento de la Fase 18 de Borja están en su sitio.
Definition of Done¶
Ver PHASE_36_PLAN.md §6. En breve:
- El MoE de 2 experts corre localmente y converge; nota honesta de resultado negativo entregada por commit.
- Cuentas de KV cache con MLA derivadas para las dimensiones del tutor de gramática.
- Walkthrough del selective-scan de Mamba entregado (~1 página + citas de líneas).
- Survey de speculative decoding entregado.
- Diagrama de árbol de decisión de arquitectura entregado en
diagrams/. /quiz 36≥ 70%.
Lo que esta fase NO cubre intencionalmente¶
- Implementar Mamba o MLA en PyTorch. Solo lectura. Las implementaciones requieren contexto de kernels de GPU (Fase 24) y no son pedagógicas a nuestra escala.
- Entrenar un MoE real. Un MoE "de verdad" tiene 100B+ parámetros; nosotros somos una calculadora. El experimento local de 2 experts es un stub.
- Arquitecturas multimodales (encoders de visión, encoders de audio, fusión). §4 lo menciona por completitud; aquí fuera de alcance.
- RLHF / DPO / "reasoning RL". La Fase 28 ya los mencionó como solo conceptos; no se reintroducen.
- Infraestructura de serving de MoE (paralelismo de experts a escala, patrones de comunicación all-to-all, MoE sin drop). Territorio de la Fase 35 si Borja vuelve a ello.
- Implementación de speculative decoding. Solo survey. Implementarlo es un side-project divertido pero distrae del propósito de la fase.
- Paralelismo 3D para entrenamiento de MoE. Territorio de la Fase 35.
El alcance de la Fase 36 es vocabulario, matemáticas y juicio sobre arquitecturas de frontera, aplicado al microscópico tutor de gramática. Nada más.
Lecturas recomendadas¶
Opcional — enriquece pero no es necesario para aprobar la fase.
- 📄 Mamba: Linear-Time Sequence Modeling with Selective State Spaces — Gu & Dao · 2023. la principal arquitectura de secuencia sin attention.
- 📄 Switch Transformers: Scaling to Trillion Parameter Models — Fedus, Zoph, Shazeer · 2021. mixture-of-experts disperso a escala.
- 📄 Fast Inference from Transformers via Speculative Decoding — Leviathan, Kalman, Matias · 2022. decodificación draft-and-verify para menor latencia.