English · Español
Fase 5 — Cuestionarios¶
🇪🇸 Espejo legible de
data/quizzes/phase-05-probability-information.yaml. Incluye la identidadH(p,q) = H(p) + KL(p||q)y la explicación de calibración.
Fuente de verdad: data/quizzes/phase-05-probability-information.yaml.
q-05-01 — Entropía de la distribución uniforme de 5 tiempos (libre)¶
p = [0.2, 0.2, 0.2, 0.2, 0.2]. Calcula H(p) en nats y bits.
Respuesta
`H = log(5) ≈ 1.609 nats ≈ 2.322 bits`. Esta es la entropía **máxima** posible para 5 clases — incertidumbre total.q-05-02 — Asimetría de la KL (opción múltiple)¶
- KL(p || q) = nats extra esperados al codificar p con un código de q.
- KL(p || q) = mode-covering: penaliza a q cuando es pequeño donde p es grande.
- KL(q || p) = mode-seeking: permite que q se concentre en una sola moda.
- La KL es una métrica.
- El entrenamiento por entropía cruzada (cross-entropy) minimiza KL(p_data || p_model) = mode-covering.
Respuesta
**Opciones 1, 2, 3, 5.** La KL no es una métrica (asimétrica, sin desigualdad triangular).q-05-03 — Identidad de la entropía cruzada (libre)¶
Demuestra H(p, q) = H(p) + KL(p || q) y úsala para explicar por qué entrenar con CE ≡ minimización de la KL (KL divergence).
Respuesta
`H(p, q) = -Σ p_i log q_i = -Σ p_i log p_i + Σ p_i log(p_i / q_i) = H(p) + KL(p || q)`. Como `H(p_data)` es constante en θ, minimizar `H(p_data, p_model)` respecto a θ es idéntico a minimizar `KL(p_data || p_model)`.q-05-04 — ¿Por qué log_softmax es más estable que log(softmax)?¶
- Porque logsumexp usa fp64 internamente.
- Porque el softmax puede subfluir a 0;
log(0) = -inf.log_softmaxnunca materializa probabilidades pequeñas. - Porque logsumexp es diferenciable y el softmax no lo es.
- Porque PyTorch los fusiona en CUDA.