English · Español
Plan de estudio y cronograma¶
El currículo completo son 362–599 horas de estudio a lo largo de 42 fases nucleares (más el Extension Track opcional). Elige un ritmo y el cronograma de abajo recalcula cuántas semanas y qué fecha de fin supone — más el detalle por fase: esfuerzo cognitivo, reparto teoría/práctica, conceptos y el hito que desbloqueas.
Elige tu ritmo¶
Cronograma¶
Detalle por fase¶
Tabla (sin JavaScript)¶
| Fase | Capítulo | Horas | Esfuerzo | Teoría/Práctica | Hito |
|---|---|---|---|---|---|
| 00 | Fundamentos del proyecto y metodología de aprendizaje | 5–8 | ●●○○○ | 45/55 | Arrancar un proyecto Python reproducible y con gates desde un clon limpio. |
| 01 | Hardware y sustrato de cómputo | 6–10 | ●●●○○ | 60/40 | Predecir si un kernel está limitado por memoria o cómputo en tu propia máquina. |
| 02 | Representación numérica | 6–10 | ●●●●○ | 60/40 | Hacer un softmax numéricamente estable y explicar exactamente por qué no lo era. |
| 03 | Álgebra lineal desde los primeros principios | 8–14 | ●●●●○ | 65/35 | Expresar cualquier operación lineal del currículo como un einsum y razonar sus shapes. |
| 04 | Cálculo y optimización para IA | 8–14 | ●●●●○ | 60/40 | Derivar backprop y la actualización de Adam desde cero y visualizarlos sobre Rosenbrock. |
| 05 | Probabilidad y teoría de la información | 7–12 | ●●●●○ | 65/35 | Derivar la pérdida cross-entropy como máxima verosimilitud y conectarla con la perplejidad. |
| 06 | Python para ingeniería de IA | 6–10 | ●●●○○ | 40/60 | Predecir el coste de memoria de una operación de tensores desde sus strides antes de ejecutarla. |
| 07 | Autograd escalar desde cero (minigrad) |
12–20 | ●●●●● | 40/60 | Entrenar un MLP de 2 capas con un motor de autograd que escribiste desde cero. |
| 08 | Autograd tensorial desde cero | 12–20 | ●●●●● | 35/65 | Pasar gradcheck en 20+ ops de tensores incluyendo matmul y softmax. |
| 09 | MLP diminuto y abstracción de módulos (minitorch) |
8–14 | ●●●○○ | 30/70 | Envolver tu autograd en una API estilo PyTorch con la que componer módulos. |
| 10 | Inicialización, normalización, residuales | 7–12 | ●●●●○ | 50/50 | Hacer entrenable una pila profunda con init, norm y residuales correctos. |
| 11 | Teoría de tokenización + implementación de BPE | 8–14 | ●●●○○ | 40/60 | Construir un tokenizer BPE desde cero y hacer round-trip exacto del corpus de verbos. |
| 12 | El corpus: diseñando el dataset microscópico | 7–12 | ●●○○○ | 45/55 | Enumerar el corpus bilingüe completo de verbos con mis-conjugaciones controladas. |
| 13 | Embeddings y espacios de representación | 6–10 | ●●●○○ | 45/55 | Entrenar embeddings donde tiempos y verbos se agrupan visiblemente en la geometría. |
| 14 | Modelos de secuencia pre-transformer | 8–12 | ●●●○○ | 50/50 | Mostrar empíricamente por qué la recurrencia pierde frente a attention en contextos largos. |
| 15 | Attention desde cero | 15–25 | ●●●●● | 55/45 | Implementar attention causal multi-head en NumPy y casar con una referencia hecha a mano. |
| 16 | Codificaciones posicionales | 6–10 | ●●●●○ | 55/45 | Añadir RoPE a attention y explicar por qué el orden de repente importa. |
| 17 | Bloque transformer diminuto y mini-GPT | 10–16 | ●●●●○ | 40/60 | Construir un Mini-GPT cuyo conteo de parámetros coincide con una fórmula cerrada al dígito. |
| 18 | Bucle de entrenamiento, anticipo de mixed precision, checkpointing | 10–16 | ●●●●○ | 35/65 | Entrenar el Mini-GPT superando el baseline n-gram en perplejidad de gramática verbal. |
| 19 | Dinámica de entrenamiento y debugging | 8–14 | ●●●●○ | 40/60 | Diagnosticar tres fallos de entrenamiento provocados usando solo dashboards. |
| 20 | Harness de evaluación | 7–12 | ●●●○○ | 45/55 | Construir un harness de evaluación del dominio con calibración e intervalos de confianza. |
| 21 | Internals de inferencia y sampling | 7–12 | ●●●○○ | 40/60 | Implementar el menú completo de sampling desde logits crudos y sentir cada perilla. |
| 22 | KV cache: de las matemáticas a la memoria | 8–14 | ●●●●○ | 45/55 | Reducir la generación autorregresiva de cuadrática a lineal con una KV cache. |
| 23 | Fundamentos de arquitectura GPU | 10–16 | ●●●●○ | 50/50 | Medir una GPU alquilada empíricamente y situar tus kernels en su roofline. |
| 24 | CUDA y Triton hands-on | 14–22 | ●●●●● | 35/65 | Escribir un kernel en CUDA y Triton alcanzando 30%+ del pico — tu primer import de PyTorch. |
| 25 | Internals de PyTorch | 10–16 | ●●●●○ | 45/55 | Registrar una op personalizada con backward y leer lo que emite torch.compile. |
| 26 | Cuantización en profundidad | 9–14 | ●●●●○ | 45/55 | Cuantizar el modelo y medir la curva calidad-ancho de banda de extremo a extremo. |
| 27 | Optimizaciones modernas de attention | 9–14 | ●●●●● | 55/45 | Derivar FlashAttention como una victoria de roofline que mueve menos bytes, no menos FLOPs. |
| 28 | Fine-tuning, LoRA, QLoRA | 9–14 | ●●●●○ | 45/55 | Hacer fine-tuning con LoRA sin gradientes de peso completos y luego cuantizar la base. |
| 29 | Retrieval-Augmented Generation (RAG) | 10–16 | ●●●●○ | 40/60 | Fundamentar respuestas en texto recuperado con búsqueda híbrida y citas. |
| 30 | Generación estructurada y decodificación restringida | 7–12 | ●●●●○ | 45/55 | Restringir la salida a JSON válido con logit masking — sin parsing posterior. |
| 31 | Uso de tools y el Model Context Protocol (MCP) | 8–12 | ●●●○○ | 40/60 | Exponer funciones Python como tools MCP con validación de schema y manejo de errores. |
| 32 | Agentes: planificación, memoria, sandboxing (tutor de gramática) | 12–20 | ●●●●● | 40/60 | Construir el agente tutor de gramática: planifica, recuerda y ejecuta tools con seguridad. |
| 33 | Serving de inferencia: de FastAPI a continuous batching | 8–14 | ●●●●○ | 40/60 | Servir el tutor con un scheduler de continuous batching que supera al static en p95. |
| 34 | Observabilidad, coste y capacidad | 7–12 | ●●●○○ | 40/60 | Instrumentar la pila con métricas, trazas y contabilidad de dólar-por-petición. |
| 35 | Entrenamiento e inferencia distribuidos | 10–16 | ●●●●● | 55/45 | Diseñar una estrategia de sharding multi-GPU y razonar sus colectivas. |
| 36 | Arquitecturas de frontera | 8–14 | ●●●●○ | 60/40 | Asociar cada arquitectura de frontera al cuello de botella que resuelve. |
| 37 | Seguridad y safety de sistemas de IA | 9–14 | ●●●●○ | 45/55 | Convertir cada ataque exitoso al agente en un test de regresión. |
| 38 | Coste, capacidad, operaciones, MLOps | 7–12 | ●●●○○ | 45/55 | Operar un registro con lineage y gates de coste-por-calidad en despliegues. |
| 39 | Capstone: el sistema de producción en miniatura | 12–20 | ●●●●○ | 25/75 | Entregar un just demo que arranca en frío, corrige verbos, traza y se apaga. |
| 40 | Hardening, postmortem, "qué sigue" | 6–10 | ●●●○○ | 55/45 | Escribir el postmortem y mapear la frontera restante con una lista de lectura. |
| 41 | Portal del aprendiz: entregando el currículo | 12–20 | ●●●●○ | 30/70 | Entregar el currículo a muchos estudiantes con auth sin contraseña y repaso espaciado. |
| X1 | Pretraining a escala | 12–20 | ●●●●○ | 50/50 | Ejecutar un job de pretraining en cloud de un día y sentir la dinámica de MFU y coste. |
| X2 | Modelos multimodales | 14–22 | ●●●●○ | 50/50 | Cargar y razonar sobre ViT/CLIP/Whisper de extremo a extremo. |
| X3 | RLHF / DPO / RLAIF | 14–24 | ●●●●● | 60/40 | Derivar DPO y reward modeling desde primeros principios y alinear el tutor. |
| X4 | Hardware en profundidad | 10–16 | ●●●●○ | 65/35 | Hablar de H100/NVLink/AllReduce y economía de datacenter a nivel de entrevista. |
| X5 | Preparación de entrevistas | 8–14 | ●●●○○ | 40/60 | Convertir todo el currículo en señal de entrevista que puedes entregar a demanda. |