Skip to content

English · Español

Fase 5 — Cuestionarios

🇪🇸 Espejo legible de data/quizzes/phase-05-probability-information.yaml. Incluye la identidad H(p,q) = H(p) + KL(p||q) y la explicación de calibración.

Fuente de verdad: data/quizzes/phase-05-probability-information.yaml.


q-05-01 — Entropía de la distribución uniforme de 5 tiempos (libre)

p = [0.2, 0.2, 0.2, 0.2, 0.2]. Calcula H(p) en nats y bits.

Respuesta `H = log(5) ≈ 1.609 nats ≈ 2.322 bits`. Esta es la entropía **máxima** posible para 5 clases — incertidumbre total.

q-05-02 — Asimetría de la KL (opción múltiple)

  1. KL(p || q) = nats extra esperados al codificar p con un código de q.
  2. KL(p || q) = mode-covering: penaliza a q cuando es pequeño donde p es grande.
  3. KL(q || p) = mode-seeking: permite que q se concentre en una sola moda.
  4. La KL es una métrica.
  5. El entrenamiento por entropía cruzada (cross-entropy) minimiza KL(p_data || p_model) = mode-covering.
Respuesta **Opciones 1, 2, 3, 5.** La KL no es una métrica (asimétrica, sin desigualdad triangular).

q-05-03 — Identidad de la entropía cruzada (libre)

Demuestra H(p, q) = H(p) + KL(p || q) y úsala para explicar por qué entrenar con CE ≡ minimización de la KL (KL divergence).

Respuesta `H(p, q) = -Σ p_i log q_i = -Σ p_i log p_i + Σ p_i log(p_i / q_i) = H(p) + KL(p || q)`. Como `H(p_data)` es constante en θ, minimizar `H(p_data, p_model)` respecto a θ es idéntico a minimizar `KL(p_data || p_model)`.

q-05-04 — ¿Por qué log_softmax es más estable que log(softmax)?

  1. Porque logsumexp usa fp64 internamente.
  2. Porque el softmax puede subfluir a 0; log(0) = -inf. log_softmax nunca materializa probabilidades pequeñas.
  3. Porque logsumexp es diferenciable y el softmax no lo es.
  4. Porque PyTorch los fusiona en CUDA.
Respuesta **Opción 2.** Incluso con `-max`, el softmax puede producir `exp(-100) ≈ 0`. `log_softmax(x) = x - logsumexp(x)` sólo calcula una diferencia finita de números finitos.

q-05-05 — Calibración (libre)

Respuesta Un modelo está **bien calibrado** si, entre las predicciones hechas con confianza `p`, la precisión empírica es `~p` (p. ej., las predicciones con 80% de confianza son correctas ~80% de las veces). Un modelo puede ser muy preciso (el argmax suele acertar) y aun así estar sobreconfiado (da 99% incluso cuando sólo acierta el 80% de las veces). Las redes neuronales modernas suelen estar sobreconfiadas; el **escalado por temperatura** es la solución post-hoc estándar.