English · Español

Plan de estudio y cronograma¶

El currículo completo son 362–599 horas de estudio a lo largo de 42 fases nucleares (más el Extension Track opcional). Elige un ritmo y el cronograma de abajo recalcula cuántas semanas y qué fecha de fin supone — más el detalle por fase: esfuerzo cognitivo, reparto teoría/práctica, conceptos y el hito que desbloqueas.

Elige tu ritmo¶

Cronograma¶

Detalle por fase¶

Tabla (sin JavaScript)¶

Fase	Capítulo	Horas	Esfuerzo	Teoría/Práctica	Hito
00	Fundamentos del proyecto y metodología de aprendizaje	5–8	●●○○○	45/55	Arrancar un proyecto Python reproducible y con gates desde un clon limpio.
01	Hardware y sustrato de cómputo	6–10	●●●○○	60/40	Predecir si un kernel está limitado por memoria o cómputo en tu propia máquina.
02	Representación numérica	6–10	●●●●○	60/40	Hacer un softmax numéricamente estable y explicar exactamente por qué no lo era.
03	Álgebra lineal desde los primeros principios	8–14	●●●●○	65/35	Expresar cualquier operación lineal del currículo como un einsum y razonar sus shapes.
04	Cálculo y optimización para IA	8–14	●●●●○	60/40	Derivar backprop y la actualización de Adam desde cero y visualizarlos sobre Rosenbrock.
05	Probabilidad y teoría de la información	7–12	●●●●○	65/35	Derivar la pérdida cross-entropy como máxima verosimilitud y conectarla con la perplejidad.
06	Python para ingeniería de IA	6–10	●●●○○	40/60	Predecir el coste de memoria de una operación de tensores desde sus strides antes de ejecutarla.
07	Autograd escalar desde cero (`minigrad`)	12–20	●●●●●	40/60	Entrenar un MLP de 2 capas con un motor de autograd que escribiste desde cero.
08	Autograd tensorial desde cero	12–20	●●●●●	35/65	Pasar gradcheck en 20+ ops de tensores incluyendo matmul y softmax.
09	MLP diminuto y abstracción de módulos (`minitorch`)	8–14	●●●○○	30/70	Envolver tu autograd en una API estilo PyTorch con la que componer módulos.
10	Inicialización, normalización, residuales	7–12	●●●●○	50/50	Hacer entrenable una pila profunda con init, norm y residuales correctos.
11	Teoría de tokenización + implementación de BPE	8–14	●●●○○	40/60	Construir un tokenizer BPE desde cero y hacer round-trip exacto del corpus de verbos.
12	El corpus: diseñando el dataset microscópico	7–12	●●○○○	45/55	Enumerar el corpus bilingüe completo de verbos con mis-conjugaciones controladas.
13	Embeddings y espacios de representación	6–10	●●●○○	45/55	Entrenar embeddings donde tiempos y verbos se agrupan visiblemente en la geometría.
14	Modelos de secuencia pre-transformer	8–12	●●●○○	50/50	Mostrar empíricamente por qué la recurrencia pierde frente a attention en contextos largos.
15	Attention desde cero	15–25	●●●●●	55/45	Implementar attention causal multi-head en NumPy y casar con una referencia hecha a mano.
16	Codificaciones posicionales	6–10	●●●●○	55/45	Añadir RoPE a attention y explicar por qué el orden de repente importa.
17	Bloque transformer diminuto y mini-GPT	10–16	●●●●○	40/60	Construir un Mini-GPT cuyo conteo de parámetros coincide con una fórmula cerrada al dígito.
18	Bucle de entrenamiento, anticipo de mixed precision, checkpointing	10–16	●●●●○	35/65	Entrenar el Mini-GPT superando el baseline n-gram en perplejidad de gramática verbal.
19	Dinámica de entrenamiento y debugging	8–14	●●●●○	40/60	Diagnosticar tres fallos de entrenamiento provocados usando solo dashboards.
20	Harness de evaluación	7–12	●●●○○	45/55	Construir un harness de evaluación del dominio con calibración e intervalos de confianza.
21	Internals de inferencia y sampling	7–12	●●●○○	40/60	Implementar el menú completo de sampling desde logits crudos y sentir cada perilla.
22	KV cache: de las matemáticas a la memoria	8–14	●●●●○	45/55	Reducir la generación autorregresiva de cuadrática a lineal con una KV cache.
23	Fundamentos de arquitectura GPU	10–16	●●●●○	50/50	Medir una GPU alquilada empíricamente y situar tus kernels en su roofline.
24	CUDA y Triton hands-on	14–22	●●●●●	35/65	Escribir un kernel en CUDA y Triton alcanzando 30%+ del pico — tu primer import de PyTorch.
25	Internals de PyTorch	10–16	●●●●○	45/55	Registrar una op personalizada con backward y leer lo que emite torch.compile.
26	Cuantización en profundidad	9–14	●●●●○	45/55	Cuantizar el modelo y medir la curva calidad-ancho de banda de extremo a extremo.
27	Optimizaciones modernas de attention	9–14	●●●●●	55/45	Derivar FlashAttention como una victoria de roofline que mueve menos bytes, no menos FLOPs.
28	Fine-tuning, LoRA, QLoRA	9–14	●●●●○	45/55	Hacer fine-tuning con LoRA sin gradientes de peso completos y luego cuantizar la base.
29	Retrieval-Augmented Generation (RAG)	10–16	●●●●○	40/60	Fundamentar respuestas en texto recuperado con búsqueda híbrida y citas.
30	Generación estructurada y decodificación restringida	7–12	●●●●○	45/55	Restringir la salida a JSON válido con logit masking — sin parsing posterior.
31	Uso de tools y el Model Context Protocol (MCP)	8–12	●●●○○	40/60	Exponer funciones Python como tools MCP con validación de schema y manejo de errores.
32	Agentes: planificación, memoria, sandboxing (tutor de gramática)	12–20	●●●●●	40/60	Construir el agente tutor de gramática: planifica, recuerda y ejecuta tools con seguridad.
33	Serving de inferencia: de FastAPI a continuous batching	8–14	●●●●○	40/60	Servir el tutor con un scheduler de continuous batching que supera al static en p95.
34	Observabilidad, coste y capacidad	7–12	●●●○○	40/60	Instrumentar la pila con métricas, trazas y contabilidad de dólar-por-petición.
35	Entrenamiento e inferencia distribuidos	10–16	●●●●●	55/45	Diseñar una estrategia de sharding multi-GPU y razonar sus colectivas.
36	Arquitecturas de frontera	8–14	●●●●○	60/40	Asociar cada arquitectura de frontera al cuello de botella que resuelve.
37	Seguridad y safety de sistemas de IA	9–14	●●●●○	45/55	Convertir cada ataque exitoso al agente en un test de regresión.
38	Coste, capacidad, operaciones, MLOps	7–12	●●●○○	45/55	Operar un registro con lineage y gates de coste-por-calidad en despliegues.
39	Capstone: el sistema de producción en miniatura	12–20	●●●●○	25/75	Entregar un `just demo` que arranca en frío, corrige verbos, traza y se apaga.
40	Hardening, postmortem, "qué sigue"	6–10	●●●○○	55/45	Escribir el postmortem y mapear la frontera restante con una lista de lectura.
41	Portal del aprendiz: entregando el currículo	12–20	●●●●○	30/70	Entregar el currículo a muchos estudiantes con auth sin contraseña y repaso espaciado.
X1	Pretraining a escala	12–20	●●●●○	50/50	Ejecutar un job de pretraining en cloud de un día y sentir la dinámica de MFU y coste.
X2	Modelos multimodales	14–22	●●●●○	50/50	Cargar y razonar sobre ViT/CLIP/Whisper de extremo a extremo.
X3	RLHF / DPO / RLAIF	14–24	●●●●●	60/40	Derivar DPO y reward modeling desde primeros principios y alinear el tutor.
X4	Hardware en profundidad	10–16	●●●●○	65/35	Hablar de H100/NVLink/AllReduce y economía de datacenter a nivel de entrevista.
X5	Preparación de entrevistas	8–14	●●●○○	40/60	Convertir todo el currículo en señal de entrevista que puedes entregar a demanda.