English · Español

Fase 04 — Cálculo y optimización para IA (AI)¶

Requiere: 03 — Álgebra lineal desde los primeros principios Enseña: gradients · chain-rule · backprop · sgd · momentum · adam Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo¶

Preescrito según A12. Los enunciados de teoría y lab son borradores estables; las soluciones aterrizan justo a tiempo en la apertura de fase.

🇪🇸 Backprop = regla de la cadena (chain rule), mecánicamente. Adam = SGD con dos medias móviles y una corrección de sesgo. Esta fase deriva ambos a mano, los implementa, y los visualiza corriendo sobre Rosenbrock.

Objetivo¶

Interiorizar el cálculo que impulsa la retropropagación (backpropagation) y la optimización que impulsa el entrenamiento:

Derivar ∂/∂x softmax(x)_i y ∂/∂x CE(softmax(x), y) en una página en blanco.
Derivar la regla de actualización de Adam a partir de "media móvil del gradiente, media móvil del gradiente al cuadrado, con corrección de sesgo".
Implementar cuatro optimizadores en src/minigrad/optim.py (SGD, momentum, Adam, AdamW) como funciones puras que operan sobre diccionarios de estado.
Animar sus trayectorias sobre la función de Rosenbrock y articular por qué cada uno se comporta como lo hace.
Explicar por qué el warmup de la tasa de aprendizaje ayuda como argumento de condicionamiento de la Hessiana, no como heurística.

Este es el prerrequisito de cálculo para la Fase 7 (autograd escalar desde cero) y la Fase 16 (el primer bucle de entrenamiento real).

Orden de lectura¶

theory/00-motivation.md — por qué una fase de cálculo antes de cualquier autograd.
theory/01-derivatives-gradients-jacobians.md — el vocabulario del cálculo multivariable, con la imagen explícita de la Jacobiana-como-matriz.
theory/02-chain-rule-and-backprop.md — regla de la cadena de una y varias variables, la derivación explícita de ∂ CE/∂x para softmax + cross-entropy. La página más importante de la Fase 4.
theory/03-optimizers-derived.md — descenso de gradiente → SGD → momentum → Adam → AdamW. Cada uno derivado, no memorizado.
theory/04-lr-schedules-and-warmup.md — constante / escalonada / coseno / warmup; el argumento de condicionamiento de la Hessiana para por qué ayuda el warmup.
lab/00-derive-softmax-gradient.md — derivar ∂ softmax/∂x y ∂ CE/∂x en papel; verificar numéricamente.
lab/01-jacobian-by-hand.md — calcular una Jacobiana analíticamente y mediante diferencias finitas; verificar coincidencia.
lab/02-optimizers-on-rosenbrock.md — competir cuatro optimizadores; animar.
lab/03-lr-schedules.md — implementar y graficar cinco programaciones de LR.

solutions/ está vacío en el preescrito — se rellena en la apertura de fase.

Definición de hecho (DoD)¶

Ver PHASE_04_PLAN.md §6. En resumen:

src/minigrad/optim.py existe con cuatro funciones de paso; los tests pasan.
Animación de Rosenbrock commiteada.
Gráfica de programación de LR commiteada.
Verificación analítica-vs-numérica de la Jacobiana dentro de 1e-4.
Borja sabe derivar Adam, derivar ∂ softmax/∂x y explicar el warmup.

Lo que esta fase intencionadamente NO cubre¶

Implementación de autograd. Fase 7 (escalar) y Fase 8 (tensor).
Cálculo de la Hessiana en código. Solo teoría; el trabajo está en la Fase 7+ cuando Value / Tensor habilitan segundas derivadas.
Optimización convexa más allá de las variantes de descenso de gradiente (punto interior, simplex, gradiente conjugado). Fuera del alcance del currículo.
Pruebas de convergencia estocástica vs determinista del descenso de gradiente. Mencionadas para vocabulario; no derivadas.
Optimizadores adaptativos más allá de Adam/AdamW (Shampoo, Lion, Sophia). Fase 24+ si son relevantes para la frontera.
Método de Newton y cuasi-Newton (BFGS, L-BFGS). Fuera de alcance.

El alcance de la Fase 4 es el cálculo y la optimización que impulsan directamente el entrenamiento de redes neuronales. Nada más.

Lecturas recomendadas¶

Opcional — enriquece pero no es necesario para aprobar la fase.

📄 Adam: A Method for Stochastic Optimization — Kingma & Ba · 2014. el optimizador que derivas a mano en esta fase.
✍️ An Overview of Gradient Descent Optimization Algorithms — Ruder · 2016. toda la familia de optimizadores en un solo mapa.