English · Español
Fase 4 — Cuestionarios¶
🇪🇸 Espejo legible de
data/quizzes/phase-04-calculus-optimization.yaml. Incluye la derivación canónica∂L/∂z = p - yy el motivo del warmup en Adam.
Fuente de verdad: data/quizzes/phase-04-calculus-optimization.yaml.
q-04-01 — ¿Por qué momentum suprime el zig-zag en un valle estrecho?¶
- Momentum proyecta los gradientes sobre el eigenvector principal de la Hessiana.
- La media móvil exponencial de los gradientes hace que las componentes transversales al valle se cancelen (el signo alterna) mientras que las componentes longitudinales al valle se refuerzan (signo consistente).
- Momentum reduce la tasa de aprendizaje de forma adaptativa por paso.
- Momentum aplica una función signo al gradiente.
Respuesta
**Opción 2.** No hay proyección ni no-linealidad de signo involucrada — solo un promediado que cancela las componentes con signo alternante y acumula las del mismo signo.q-04-02 — Afirmaciones sobre la familia de optimizadores (opción múltiple)¶
- AdaGrad divide por la raíz cuadrada de la suma acumulada de gradientes al cuadrado.
- RMSProp reemplaza la suma acumulada con una EMA.
- Adam = RMSProp + momentum + corrección de sesgo.
- AdamW acopla el weight decay al gradiente antes de las actualizaciones de la EMA.
- SGD-con-momentum tiene cero estado de memoria por parámetro más allá de θ.
Respuesta
**Opciones 1, 2, 3.** La opción 4 es la versión *acoplada* (incorrecta); la W de AdamW está *desacoplada*. La opción 5 ignora el vector de velocidad v.q-04-03 — Gradiente de softmax + cross-entropy (libre)¶
Respuesta
Resultado: `∂L/∂z_i = p_i - y_i`. Derivación: `∂L/∂p_j = -y_j/p_j`; entonces `∂L/∂z_i = Σ_j (-y_j/p_j) · p_j (δ_ij - p_i) = -y_i + p_i Σ_j y_j = p_i - y_i` porque `Σ y_j = 1`. Esta es la fórmula detrás de "logits menos targets".q-04-04 — ¿Cuándo importa el warmup? (libre)¶
Respuesta
Al inicio del entrenamiento, la estimación del segundo momento de Adam (EMA de g²) tiene alta varianza por tener pocas muestras, así que el paso con corrección de sesgo puede ser grande y ruidoso. Subir `lr` linealmente desde 0 mantiene los pasos iniciales inestables pequeños, dando tiempo a las activaciones para estabilizarse.q-04-05 — Modo directo vs modo inverso de AD¶
- Cuando m >> n; el modo directo hace O(n) barridos por salida.
- Cuando n >> m; el modo inverso hace O(m) barridos por gradiente de entrada, vs O(n) del modo directo.
- El modo inverso siempre es más rápido.
- Complejidad idéntica.