English · Español

02 — Entropía y divergencia KL¶

🇪🇸 Dos cantidades centrales: cuánta incertidumbre tiene una distribución (entropía), y cuán lejos están dos distribuciones (KL). Cross-entropy se va a derivar de estas dos.

Entropía: \(H(p)\)¶

La entropía de una distribución categórica \(p\) sobre un soporte finito de tamaño \(V\) es:

\[H(p) = -\sum_{i=1}^{V} p_i \log p_i,\]

con la convención \(0 \log 0 = 0\) (una singularidad removible — el límite es 0 por arriba).

Interpretación¶

Tres intuiciones equivalentes:

Sorpresa media. Si muestreamos \(i \sim p\), la "sorpresa" de ver \(i\) es \(-\log p_i\) (los eventos raros son más sorprendentes). La entropía es la sorpresa esperada.
Coste óptimo de codificación. El número mínimo medio de bits/nats para codificar muestras de \(p\) (teorema de codificación de fuente de Shannon).
Concentración. Una distribución cercana a la uniforme tiene entropía alta; una casi-puntual tiene entropía baja.

Cotas¶

Para una distribución sobre \(V\) resultados:

\[0 \le H(p) \le \log V.\]

Cota inferior (\(H = 0\)): alcanzada si y sólo si \(p\) es una masa puntual.
Cota superior (\(H = \log V\)): alcanzada si y sólo si \(p\) es uniforme.

Demostración de la cota superior (Jensen). \(-\log\) es convexa. Por Jensen, para cualquier probabilidades \(p_i\) que sumen 1:

\[H(p) = \sum_i p_i \cdot (-\log p_i) \le -\log\left(\sum_i p_i \cdot p_i\right) \cdot \text{NO} — \text{esto está mal}.\]

Argumento correcto: \(H(p) = \sum_i p_i \log(1/p_i)\). Por Jensen sobre la función cóncava \(\log\):

\[H(p) = \mathbb{E}_p[\log(1/p_i)] \le \log \mathbb{E}_p[1/p_i] = \log V.\]

La última igualdad usa \(\mathbb{E}_p[1/p_i] = \sum_i p_i \cdot (1/p_i) = V\). La igualdad en Jensen se da si y sólo si la variable aleatoria es constante — es decir, \(1/p_i = V\) para todo \(i\), es decir, \(p\) uniforme. ✓

🇪🇸 Tienes que reproducir esta demostración a mano en el lab 00. La parte sutil es el uso correcto de Jensen.

Ejemplo trabajado: entropía del uniforme de 5 tiempos¶

Para una distribución uniforme sobre 5 tiempos, \(p_i = 1/5\) para todo \(i\). Entonces \(H(p) = 5 \cdot (1/5) \log 5 = \log 5 \approx 1.609\) nats \(\approx 2.322\) bits.

Si el modelo está seguro sobre el tiempo (un \(p_i = 1\), el resto 0), \(H(p) = 0\).

Un modelo de "confianza media" con \(p = (0.6, 0.1, 0.1, 0.1, 0.1)\) tiene \(H \approx 1.226\) nats.

Divergencia KL: \(D_{\text{KL}}(p \,\|\, q)\)¶

La divergencia de Kullback-Leibler de \(q\) a \(p\) es:

\[D_{\text{KL}}(p \,\|\, q) = \sum_i p_i \log \frac{p_i}{q_i},\]

con la convención \(0 \log(0/0) = 0\) y \(0 \log(0/q_i) = 0\) para \(q_i > 0\). Si existe algún \(i\) con \(p_i > 0\) y \(q_i = 0\), la KL es \(+\infty\) (este es el modo de fallo de "soporte incompatible").

Propiedades¶

No negatividad. \(D_{\text{KL}}(p \,\|\, q) \ge 0\), con igualdad si y sólo si \(p = q\) (desigualdad de Gibbs).
Asimétrica. \(D_{\text{KL}}(p \,\|\, q) \ne D_{\text{KL}}(q \,\|\, p)\) en general — la KL no es una métrica.
Sin desigualdad triangular. Confirma que la KL no es una métrica.
Significado en geometría de la información. A segundo orden alrededor de \(p = q\), \(D_{\text{KL}}\) se comporta como una distancia riemanniana al cuadrado (métrica de información de Fisher). Fuera de alcance aquí, pero vale la pena conocerlo para más adelante.

Demostración de la no negatividad (Gibbs)¶

Por Jensen sobre la función convexa \(-\log\):

\[D_{\text{KL}}(p \,\|\, q) = \sum_i p_i \log \frac{p_i}{q_i} = -\sum_i p_i \log \frac{q_i}{p_i} = \mathbb{E}_p\left[-\log \frac{q_i}{p_i}\right].\]

Por Jensen (\(-\log\) convexa, \(\mathbb{E}[-\log Z] \ge -\log \mathbb{E}[Z]\)):

\[D_{\text{KL}}(p \,\|\, q) \ge -\log \mathbb{E}_p\left[\frac{q_i}{p_i}\right] = -\log \sum_i p_i \cdot \frac{q_i}{p_i} = -\log \sum_i q_i = -\log 1 = 0.\]

Igualdad en Jensen si y sólo si \(q_i / p_i\) es constante, lo cual (combinado con que ambas estén normalizadas) fuerza \(p = q\). ✓

Borja reproduce esta demostración en el lab 01.

Asimetría — ¿en qué sentido?¶

La convención varía. Nuestra convención: \(D_{\text{KL}}(p \,\|\, q)\) es "el coste en nats extra de codificar muestras de \(p\) usando un código optimizado para \(q\)". En aprendizaje automático (machine learning), \(p\) es típicamente la distribución verdadera y \(q\) es el modelo.

Consecuencia práctica: el gradiente de \(D_{\text{KL}}(p^* \,\|\, q_\theta)\) respecto a \(\theta\) es el gradiente de \(H(p^*, q_\theta)\) (ya que \(H(p^*)\) no depende de \(\theta\)). Este es exactamente el gradiente de la entropía cruzada — la pieza central de 03-cross-entropy-and-mle.md.

Ejemplo trabajado: KL entre dos distribuciones de tiempos verbales¶

Salida del modelo \(q = (0.6, 0.1, 0.1, 0.1, 0.1)\) y verdad de referencia \(p = (1, 0, 0, 0, 0)\) (masa puntual en pasado). Entonces:

\[D_{\text{KL}}(p \,\|\, q) = 1 \cdot \log(1/0.6) + 0 + 0 + 0 + 0 = \log(5/3) \approx 0.511 \text{ nats}.\]

La inversa: \(D_{\text{KL}}(q \,\|\, p) = +\infty\) (soporte incompatible — \(p\) asigna 0 a formas donde \(q\) tiene soporte). Por eso siempre escribimos primero la distribución verdadera: \(D_{\text{KL}}(\text{true} \,\|\, \text{model})\), nunca al revés.

Información mutua: \(I(X; Y)\)¶

Definida como:

\[I(X; Y) = D_{\text{KL}}\big(p(X, Y) \,\|\, p(X) \, p(Y)\big) = H(X) + H(Y) - H(X, Y).\]

Equivalentemente \(I(X; Y) = H(Y) - H(Y \mid X)\) — la reducción de incertidumbre sobre \(Y\) al observar \(X\). Para el modelado de lenguaje, \(I(\text{prefix}; \text{next-token})\) es lo que el modelo intenta capturar.

No calcularemos MI en un lab aquí (diferido al análisis de sondeo de la Fase 20), pero la definición es fundamental.

Lo que este archivo NO cubre¶

La entropía condicional como base de la teoría de la decodificación (teorema del canal ruidoso de Shannon).
Entropía de Rényi, entropía de Tsallis y la familia de generalizaciones.
Estimación de MI a partir de muestras — un problema estadístico no trivial diferido a la Fase 20.

Siguiente: 03-cross-entropy-and-mle.md