English · Español
01 — Distribuciones discretas sobre conjugaciones¶
🇪🇸 Empezamos con lo más básico: ¿qué es una distribución de probabilidad sobre el conjunto de conjugaciones? Cómo se suman, se condicionan, se marginalizan.
Espacios muestrales, eventos y la distribución categórica¶
Un espacio muestral \(\Omega\) es el conjunto de resultados posibles. En nuestro escenario, el espacio muestral más útil es:
Para el corpus §A13, \(V \approx 600\), siendo \(w_i\) una forma verbal específica (p. ej., w_{37} podría ser worked, w_{38} podría ser el par en español trabajó).
Una distribución de probabilidad \(p\) sobre \(\Omega\) es una función \(p : \Omega \to [0, 1]\) con \(\sum_i p(w_i) = 1\). La distribución categórica es exactamente esto: una distribución discreta sobre un conjunto finito.
A lo largo de esta fase, "distribución" significa categórica salvo que digamos lo contrario. Los vectores en \(\Delta^{V-1}\) (el \((V-1)\)-símplex) son los objetos naturales.
Conjunta, marginal, condicional¶
Sea \(X\) la variable aleatoria del prefijo (p. ej., el contexto de entrada del modelo) y \(Y\) la del siguiente token de salida (una de las \(V\) formas). Entonces:
- Conjunta: \(p(X = x, Y = y)\) — la probabilidad de un par (prefijo, siguiente token) concreto.
- Marginal: \(p(Y = y) = \sum_x p(X = x, Y = y)\) — la probabilidad de \(Y = y\) con independencia de \(x\).
- Condicional: \(p(Y = y \mid X = x) = \dfrac{p(X = x, Y = y)}{p(X = x)}\), definida cuando \(p(X = x) > 0\).
La salida del modelo es exactamente la condicional: dado el prefijo, ¿cuál es la distribución sobre los siguientes tokens? El entrenamiento ajusta \(\theta\) para que \(q_\theta(y \mid x) \to p^*(y \mid x)\).
Ejemplo trabajado: un juguete de 2 tiempos y 2 personas¶
Para concretar, considera un corpus de juguete restringido a {work} como único verbo, con \(\text{tense} \in \{\text{present}, \text{past}\}\) y \(\text{person} \in \{\text{I}, \text{he}\}\):
| Forma | Tiempo | Persona |
|---|---|---|
work |
present | I |
works |
present | he |
worked |
past | I |
worked |
past | he |
Observa la ambigüedad superficial: worked aparece en dos celdas. Si el corpus se muestrea uniformemente sobre (tiempo, persona), la marginal \(p(\text{form} = \text{worked}) = 1/2\), mientras que \(p(\text{form} = \text{works}) = 1/4\).
Condicional sobre persona: \(p(\text{form} = \text{works} \mid \text{person} = \text{he}) = 1/2\). Ejemplo diminuto, pero ilustra que la condicional rehace la marginal de forma significativa.
Independencia¶
\(Y\) es independiente de \(X\) (escrito \(Y \perp X\)) si y sólo si \(p(Y \mid X) = p(Y)\) para todo \(X\). En modelado de lenguaje, la independencia es el enemigo: si el siguiente token fuera independiente del prefijo, la predicción sería imposible. Todo el sentido del modelo es explotar las dependencias.
Más adelante medimos esas dependencias con la información mutua (02-entropy-and-kl.md).
Esperanza y varianza¶
Para una función real \(f : \Omega \to \mathbb{R}\):
Las funciones de pérdida son esperanzas: la entropía cruzada como pérdida es \(\mathbb{E}_{(x,y) \sim p^*}[-\log q_\theta(y \mid x)]\). La media sobre el mini-batch es su estimador muestral.
Ejemplo trabajado: longitud esperada de una forma verbal¶
Define \(f(w_i) = \text{len}(w_i)\) — la longitud en caracteres de la \(i\)-ésima forma. Sobre nuestro juguete de 4 formas:
Trivial, pero la memoria muscular de la esperanza como suma de (prob × valor) es lo que necesitamos.
Mini-batches y estimadores insesgados¶
En entrenamiento, la esperanza verdadera \(\mathbb{E}_{(x,y) \sim p^*}[L(\theta; x, y)]\) es lo que queremos minimizar. No tenemos \(p^*\); tenemos \(N\) muestras. La media muestral
es un estimador insesgado de la esperanza verdadera: \(\mathbb{E}[\widehat{L}] = L\). La varianza escala como \(1/B\) — esto es la base de "batches mayores dan gradientes más limpios".
Usaremos esto directamente en la Fase 18 (training loop) cuando promediemos la entropía cruzada por ejemplo a lo largo del batch.
Distribución empírica¶
Dadas \(N\) observaciones \(\{y^{(1)}, \ldots, y^{(N)}\}\) extraídas de una categórica, la distribución empírica es:
Propiedades: es una distribución válida; es el MLE de \(p^*\) bajo el modelo categórico (la Fase 03 de este conjunto de archivos de teoría lo demuestra); converge a \(p^*\) cuando \(N \to \infty\) (por la ley de los grandes números).
La distribución empírica es el puente entre "tenemos datos" y "tenemos una distribución contra la que podemos calcular KL".
Práctica numérica: log-probabilidades¶
En la práctica, casi nunca almacenamos \(p(y)\) directamente cuando \(V\) es grande o \(p\) es puntiaguda. En su lugar guardamos \(\log p(y)\):
- Las sumas se vuelven log-sum-exp (siguiente archivo de teoría).
- Los productos se vuelven sumas (que no hacen underflow tan fácilmente).
- Las fórmulas de entropía cruzada y KL se leen más naturalmente sobre log-probabilidades.
Esto es presagio — tratamiento completo en 04-log-sum-exp-and-stability.md.
Lo que este archivo NO cubre¶
- Distribuciones continuas (siguiente fase, si llega).
- Intercambiabilidad, de Finetti y fundamentos bayesianos (fuera de alcance).
- Suficiencia, estadísticos auxiliares, familias exponenciales (vale la pena conocerlos, pero no para la tarea §A13).
Siguiente: 02-entropy-and-kl.md