Skip to content

English · Español

Plan de estudio y cronograma

El currículo completo son 362–599 horas de estudio a lo largo de 42 fases nucleares (más el Extension Track opcional). Elige un ritmo y el cronograma de abajo recalcula cuántas semanas y qué fecha de fin supone — más el detalle por fase: esfuerzo cognitivo, reparto teoría/práctica, conceptos y el hito que desbloqueas.

Elige tu ritmo

Cronograma

Detalle por fase

Tabla (sin JavaScript)

Fase Capítulo Horas Esfuerzo Teoría/Práctica Hito
00 Fundamentos del proyecto y metodología de aprendizaje 5–8 ●●○○○ 45/55 Arrancar un proyecto Python reproducible y con gates desde un clon limpio.
01 Hardware y sustrato de cómputo 6–10 ●●●○○ 60/40 Predecir si un kernel está limitado por memoria o cómputo en tu propia máquina.
02 Representación numérica 6–10 ●●●●○ 60/40 Hacer un softmax numéricamente estable y explicar exactamente por qué no lo era.
03 Álgebra lineal desde los primeros principios 8–14 ●●●●○ 65/35 Expresar cualquier operación lineal del currículo como un einsum y razonar sus shapes.
04 Cálculo y optimización para IA 8–14 ●●●●○ 60/40 Derivar backprop y la actualización de Adam desde cero y visualizarlos sobre Rosenbrock.
05 Probabilidad y teoría de la información 7–12 ●●●●○ 65/35 Derivar la pérdida cross-entropy como máxima verosimilitud y conectarla con la perplejidad.
06 Python para ingeniería de IA 6–10 ●●●○○ 40/60 Predecir el coste de memoria de una operación de tensores desde sus strides antes de ejecutarla.
07 Autograd escalar desde cero (minigrad) 12–20 ●●●●● 40/60 Entrenar un MLP de 2 capas con un motor de autograd que escribiste desde cero.
08 Autograd tensorial desde cero 12–20 ●●●●● 35/65 Pasar gradcheck en 20+ ops de tensores incluyendo matmul y softmax.
09 MLP diminuto y abstracción de módulos (minitorch) 8–14 ●●●○○ 30/70 Envolver tu autograd en una API estilo PyTorch con la que componer módulos.
10 Inicialización, normalización, residuales 7–12 ●●●●○ 50/50 Hacer entrenable una pila profunda con init, norm y residuales correctos.
11 Teoría de tokenización + implementación de BPE 8–14 ●●●○○ 40/60 Construir un tokenizer BPE desde cero y hacer round-trip exacto del corpus de verbos.
12 El corpus: diseñando el dataset microscópico 7–12 ●●○○○ 45/55 Enumerar el corpus bilingüe completo de verbos con mis-conjugaciones controladas.
13 Embeddings y espacios de representación 6–10 ●●●○○ 45/55 Entrenar embeddings donde tiempos y verbos se agrupan visiblemente en la geometría.
14 Modelos de secuencia pre-transformer 8–12 ●●●○○ 50/50 Mostrar empíricamente por qué la recurrencia pierde frente a attention en contextos largos.
15 Attention desde cero 15–25 ●●●●● 55/45 Implementar attention causal multi-head en NumPy y casar con una referencia hecha a mano.
16 Codificaciones posicionales 6–10 ●●●●○ 55/45 Añadir RoPE a attention y explicar por qué el orden de repente importa.
17 Bloque transformer diminuto y mini-GPT 10–16 ●●●●○ 40/60 Construir un Mini-GPT cuyo conteo de parámetros coincide con una fórmula cerrada al dígito.
18 Bucle de entrenamiento, anticipo de mixed precision, checkpointing 10–16 ●●●●○ 35/65 Entrenar el Mini-GPT superando el baseline n-gram en perplejidad de gramática verbal.
19 Dinámica de entrenamiento y debugging 8–14 ●●●●○ 40/60 Diagnosticar tres fallos de entrenamiento provocados usando solo dashboards.
20 Harness de evaluación 7–12 ●●●○○ 45/55 Construir un harness de evaluación del dominio con calibración e intervalos de confianza.
21 Internals de inferencia y sampling 7–12 ●●●○○ 40/60 Implementar el menú completo de sampling desde logits crudos y sentir cada perilla.
22 KV cache: de las matemáticas a la memoria 8–14 ●●●●○ 45/55 Reducir la generación autorregresiva de cuadrática a lineal con una KV cache.
23 Fundamentos de arquitectura GPU 10–16 ●●●●○ 50/50 Medir una GPU alquilada empíricamente y situar tus kernels en su roofline.
24 CUDA y Triton hands-on 14–22 ●●●●● 35/65 Escribir un kernel en CUDA y Triton alcanzando 30%+ del pico — tu primer import de PyTorch.
25 Internals de PyTorch 10–16 ●●●●○ 45/55 Registrar una op personalizada con backward y leer lo que emite torch.compile.
26 Cuantización en profundidad 9–14 ●●●●○ 45/55 Cuantizar el modelo y medir la curva calidad-ancho de banda de extremo a extremo.
27 Optimizaciones modernas de attention 9–14 ●●●●● 55/45 Derivar FlashAttention como una victoria de roofline que mueve menos bytes, no menos FLOPs.
28 Fine-tuning, LoRA, QLoRA 9–14 ●●●●○ 45/55 Hacer fine-tuning con LoRA sin gradientes de peso completos y luego cuantizar la base.
29 Retrieval-Augmented Generation (RAG) 10–16 ●●●●○ 40/60 Fundamentar respuestas en texto recuperado con búsqueda híbrida y citas.
30 Generación estructurada y decodificación restringida 7–12 ●●●●○ 45/55 Restringir la salida a JSON válido con logit masking — sin parsing posterior.
31 Uso de tools y el Model Context Protocol (MCP) 8–12 ●●●○○ 40/60 Exponer funciones Python como tools MCP con validación de schema y manejo de errores.
32 Agentes: planificación, memoria, sandboxing (tutor de gramática) 12–20 ●●●●● 40/60 Construir el agente tutor de gramática: planifica, recuerda y ejecuta tools con seguridad.
33 Serving de inferencia: de FastAPI a continuous batching 8–14 ●●●●○ 40/60 Servir el tutor con un scheduler de continuous batching que supera al static en p95.
34 Observabilidad, coste y capacidad 7–12 ●●●○○ 40/60 Instrumentar la pila con métricas, trazas y contabilidad de dólar-por-petición.
35 Entrenamiento e inferencia distribuidos 10–16 ●●●●● 55/45 Diseñar una estrategia de sharding multi-GPU y razonar sus colectivas.
36 Arquitecturas de frontera 8–14 ●●●●○ 60/40 Asociar cada arquitectura de frontera al cuello de botella que resuelve.
37 Seguridad y safety de sistemas de IA 9–14 ●●●●○ 45/55 Convertir cada ataque exitoso al agente en un test de regresión.
38 Coste, capacidad, operaciones, MLOps 7–12 ●●●○○ 45/55 Operar un registro con lineage y gates de coste-por-calidad en despliegues.
39 Capstone: el sistema de producción en miniatura 12–20 ●●●●○ 25/75 Entregar un just demo que arranca en frío, corrige verbos, traza y se apaga.
40 Hardening, postmortem, "qué sigue" 6–10 ●●●○○ 55/45 Escribir el postmortem y mapear la frontera restante con una lista de lectura.
41 Portal del aprendiz: entregando el currículo 12–20 ●●●●○ 30/70 Entregar el currículo a muchos estudiantes con auth sin contraseña y repaso espaciado.
X1 Pretraining a escala 12–20 ●●●●○ 50/50 Ejecutar un job de pretraining en cloud de un día y sentir la dinámica de MFU y coste.
X2 Modelos multimodales 14–22 ●●●●○ 50/50 Cargar y razonar sobre ViT/CLIP/Whisper de extremo a extremo.
X3 RLHF / DPO / RLAIF 14–24 ●●●●● 60/40 Derivar DPO y reward modeling desde primeros principios y alinear el tutor.
X4 Hardware en profundidad 10–16 ●●●●○ 65/35 Hablar de H100/NVLink/AllReduce y economía de datacenter a nivel de entrevista.
X5 Preparación de entrevistas 8–14 ●●●○○ 40/60 Convertir todo el currículo en señal de entrevista que puedes entregar a demanda.