English · Español
Fase 04 — Cálculo y optimización para IA (AI)¶
Requiere: 03 — Álgebra lineal desde los primeros principios Enseña:
gradients·chain-rule·backprop·sgd·momentum·adamSalta a cualquier capítulo desde el índice de referencia de fases.
Mapa del capítulo¶
Preescrito según A12. Los enunciados de teoría y lab son borradores estables; las soluciones aterrizan justo a tiempo en la apertura de fase.
🇪🇸 Backprop = regla de la cadena (chain rule), mecánicamente. Adam = SGD con dos medias móviles y una corrección de sesgo. Esta fase deriva ambos a mano, los implementa, y los visualiza corriendo sobre Rosenbrock.
Objetivo¶
Interiorizar el cálculo que impulsa la retropropagación (backpropagation) y la optimización que impulsa el entrenamiento:
- Derivar
∂/∂x softmax(x)_iy∂/∂x CE(softmax(x), y)en una página en blanco. - Derivar la regla de actualización de Adam a partir de "media móvil del gradiente, media móvil del gradiente al cuadrado, con corrección de sesgo".
- Implementar cuatro optimizadores en
src/minigrad/optim.py(SGD, momentum, Adam, AdamW) como funciones puras que operan sobre diccionarios de estado. - Animar sus trayectorias sobre la función de Rosenbrock y articular por qué cada uno se comporta como lo hace.
- Explicar por qué el warmup de la tasa de aprendizaje ayuda como argumento de condicionamiento de la Hessiana, no como heurística.
Este es el prerrequisito de cálculo para la Fase 7 (autograd escalar desde cero) y la Fase 16 (el primer bucle de entrenamiento real).
Orden de lectura¶
theory/00-motivation.md— por qué una fase de cálculo antes de cualquier autograd.theory/01-derivatives-gradients-jacobians.md— el vocabulario del cálculo multivariable, con la imagen explícita de la Jacobiana-como-matriz.theory/02-chain-rule-and-backprop.md— regla de la cadena de una y varias variables, la derivación explícita de∂ CE/∂xpara softmax + cross-entropy. La página más importante de la Fase 4.theory/03-optimizers-derived.md— descenso de gradiente → SGD → momentum → Adam → AdamW. Cada uno derivado, no memorizado.theory/04-lr-schedules-and-warmup.md— constante / escalonada / coseno / warmup; el argumento de condicionamiento de la Hessiana para por qué ayuda el warmup.lab/00-derive-softmax-gradient.md— derivar∂ softmax/∂xy∂ CE/∂xen papel; verificar numéricamente.lab/01-jacobian-by-hand.md— calcular una Jacobiana analíticamente y mediante diferencias finitas; verificar coincidencia.lab/02-optimizers-on-rosenbrock.md— competir cuatro optimizadores; animar.lab/03-lr-schedules.md— implementar y graficar cinco programaciones de LR.
solutions/ está vacío en el preescrito — se rellena en la apertura de fase.
Definición de hecho (DoD)¶
Ver PHASE_04_PLAN.md §6. En resumen:
src/minigrad/optim.pyexiste con cuatro funciones de paso; los tests pasan.- Animación de Rosenbrock commiteada.
- Gráfica de programación de LR commiteada.
- Verificación analítica-vs-numérica de la Jacobiana dentro de
1e-4. - Borja sabe derivar Adam, derivar
∂ softmax/∂xy explicar el warmup.
Lo que esta fase intencionadamente NO cubre¶
- Implementación de autograd. Fase 7 (escalar) y Fase 8 (tensor).
- Cálculo de la Hessiana en código. Solo teoría; el trabajo está en la Fase 7+ cuando
Value/Tensorhabilitan segundas derivadas. - Optimización convexa más allá de las variantes de descenso de gradiente (punto interior, simplex, gradiente conjugado). Fuera del alcance del currículo.
- Pruebas de convergencia estocástica vs determinista del descenso de gradiente. Mencionadas para vocabulario; no derivadas.
- Optimizadores adaptativos más allá de Adam/AdamW (Shampoo, Lion, Sophia). Fase 24+ si son relevantes para la frontera.
- Método de Newton y cuasi-Newton (BFGS, L-BFGS). Fuera de alcance.
El alcance de la Fase 4 es el cálculo y la optimización que impulsan directamente el entrenamiento de redes neuronales. Nada más.
Lecturas recomendadas¶
Opcional — enriquece pero no es necesario para aprobar la fase.
- 📄 Adam: A Method for Stochastic Optimization — Kingma & Ba · 2014. el optimizador que derivas a mano en esta fase.
- ✍️ An Overview of Gradient Descent Optimization Algorithms — Ruder · 2016. toda la familia de optimizadores en un solo mapa.