Skip to content

English · Español

Fase 04 — Cálculo y optimización para IA (AI)

Requiere: 03 — Álgebra lineal desde los primeros principios Enseña: gradients · chain-rule · backprop · sgd · momentum · adam Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo

Preescrito según A12. Los enunciados de teoría y lab son borradores estables; las soluciones aterrizan justo a tiempo en la apertura de fase.

🇪🇸 Backprop = regla de la cadena (chain rule), mecánicamente. Adam = SGD con dos medias móviles y una corrección de sesgo. Esta fase deriva ambos a mano, los implementa, y los visualiza corriendo sobre Rosenbrock.


Objetivo

Interiorizar el cálculo que impulsa la retropropagación (backpropagation) y la optimización que impulsa el entrenamiento:

  • Derivar ∂/∂x softmax(x)_i y ∂/∂x CE(softmax(x), y) en una página en blanco.
  • Derivar la regla de actualización de Adam a partir de "media móvil del gradiente, media móvil del gradiente al cuadrado, con corrección de sesgo".
  • Implementar cuatro optimizadores en src/minigrad/optim.py (SGD, momentum, Adam, AdamW) como funciones puras que operan sobre diccionarios de estado.
  • Animar sus trayectorias sobre la función de Rosenbrock y articular por qué cada uno se comporta como lo hace.
  • Explicar por qué el warmup de la tasa de aprendizaje ayuda como argumento de condicionamiento de la Hessiana, no como heurística.

Este es el prerrequisito de cálculo para la Fase 7 (autograd escalar desde cero) y la Fase 16 (el primer bucle de entrenamiento real).

Orden de lectura

  1. theory/00-motivation.md — por qué una fase de cálculo antes de cualquier autograd.
  2. theory/01-derivatives-gradients-jacobians.md — el vocabulario del cálculo multivariable, con la imagen explícita de la Jacobiana-como-matriz.
  3. theory/02-chain-rule-and-backprop.md — regla de la cadena de una y varias variables, la derivación explícita de ∂ CE/∂x para softmax + cross-entropy. La página más importante de la Fase 4.
  4. theory/03-optimizers-derived.md — descenso de gradiente → SGD → momentum → Adam → AdamW. Cada uno derivado, no memorizado.
  5. theory/04-lr-schedules-and-warmup.md — constante / escalonada / coseno / warmup; el argumento de condicionamiento de la Hessiana para por qué ayuda el warmup.
  6. lab/00-derive-softmax-gradient.md — derivar ∂ softmax/∂x y ∂ CE/∂x en papel; verificar numéricamente.
  7. lab/01-jacobian-by-hand.md — calcular una Jacobiana analíticamente y mediante diferencias finitas; verificar coincidencia.
  8. lab/02-optimizers-on-rosenbrock.md — competir cuatro optimizadores; animar.
  9. lab/03-lr-schedules.md — implementar y graficar cinco programaciones de LR.

solutions/ está vacío en el preescrito — se rellena en la apertura de fase.

Definición de hecho (DoD)

Ver PHASE_04_PLAN.md §6. En resumen:

  • src/minigrad/optim.py existe con cuatro funciones de paso; los tests pasan.
  • Animación de Rosenbrock commiteada.
  • Gráfica de programación de LR commiteada.
  • Verificación analítica-vs-numérica de la Jacobiana dentro de 1e-4.
  • Borja sabe derivar Adam, derivar ∂ softmax/∂x y explicar el warmup.

Lo que esta fase intencionadamente NO cubre

  • Implementación de autograd. Fase 7 (escalar) y Fase 8 (tensor).
  • Cálculo de la Hessiana en código. Solo teoría; el trabajo está en la Fase 7+ cuando Value / Tensor habilitan segundas derivadas.
  • Optimización convexa más allá de las variantes de descenso de gradiente (punto interior, simplex, gradiente conjugado). Fuera del alcance del currículo.
  • Pruebas de convergencia estocástica vs determinista del descenso de gradiente. Mencionadas para vocabulario; no derivadas.
  • Optimizadores adaptativos más allá de Adam/AdamW (Shampoo, Lion, Sophia). Fase 24+ si son relevantes para la frontera.
  • Método de Newton y cuasi-Newton (BFGS, L-BFGS). Fuera de alcance.

El alcance de la Fase 4 es el cálculo y la optimización que impulsan directamente el entrenamiento de redes neuronales. Nada más.

Lecturas recomendadas

Opcional — enriquece pero no es necesario para aprobar la fase.