English · Español

Fase 4 — Cuestionarios¶

🇪🇸 Espejo legible de data/quizzes/phase-04-calculus-optimization.yaml. Incluye la derivación canónica ∂L/∂z = p - y y el motivo del warmup en Adam.

Fuente de verdad: data/quizzes/phase-04-calculus-optimization.yaml.

q-04-01 — ¿Por qué momentum suprime el zig-zag en un valle estrecho?¶

Momentum proyecta los gradientes sobre el eigenvector principal de la Hessiana.
La media móvil exponencial de los gradientes hace que las componentes transversales al valle se cancelen (el signo alterna) mientras que las componentes longitudinales al valle se refuerzan (signo consistente).
Momentum reduce la tasa de aprendizaje de forma adaptativa por paso.
Momentum aplica una función signo al gradiente.

Respuesta

**Opción 2.** No hay proyección ni no-linealidad de signo involucrada — solo un promediado que cancela las componentes con signo alternante y acumula las del mismo signo.

q-04-02 — Afirmaciones sobre la familia de optimizadores (opción múltiple)¶

AdaGrad divide por la raíz cuadrada de la suma acumulada de gradientes al cuadrado.
RMSProp reemplaza la suma acumulada con una EMA.
Adam = RMSProp + momentum + corrección de sesgo.
AdamW acopla el weight decay al gradiente antes de las actualizaciones de la EMA.
SGD-con-momentum tiene cero estado de memoria por parámetro más allá de θ.

Respuesta

**Opciones 1, 2, 3.** La opción 4 es la versión *acoplada* (incorrecta); la W de AdamW está *desacoplada*. La opción 5 ignora el vector de velocidad v.

q-04-03 — Gradiente de softmax + cross-entropy (libre)¶

Respuesta

Resultado: `∂L/∂z_i = p_i - y_i`. Derivación: `∂L/∂p_j = -y_j/p_j`; entonces `∂L/∂z_i = Σ_j (-y_j/p_j) · p_j (δ_ij - p_i) = -y_i + p_i Σ_j y_j = p_i - y_i` porque `Σ y_j = 1`. Esta es la fórmula detrás de "logits menos targets".

q-04-04 — ¿Cuándo importa el warmup? (libre)¶

Respuesta

Al inicio del entrenamiento, la estimación del segundo momento de Adam (EMA de g²) tiene alta varianza por tener pocas muestras, así que el paso con corrección de sesgo puede ser grande y ruidoso. Subir `lr` linealmente desde 0 mantiene los pasos iniciales inestables pequeños, dando tiempo a las activaciones para estabilizarse.

q-04-05 — Modo directo vs modo inverso de AD¶

Cuando m >> n; el modo directo hace O(n) barridos por salida.
Cuando n >> m; el modo inverso hace O(m) barridos por gradiente de entrada, vs O(n) del modo directo.
El modo inverso siempre es más rápido.
Complejidad idéntica.

Respuesta

**Opción 2.** Las funciones de pérdida son R^n → R (m=1, n en los millones), así que el modo inverso es la elección natural — un solo pase hacia atrás en lugar de n barridos hacia adelante.