English · Español

01 — Distribuciones discretas sobre conjugaciones¶

🇪🇸 Empezamos con lo más básico: ¿qué es una distribución de probabilidad sobre el conjunto de conjugaciones? Cómo se suman, se condicionan, se marginalizan.

Espacios muestrales, eventos y la distribución categórica¶

Un espacio muestral \(\Omega\) es el conjunto de resultados posibles. En nuestro escenario, el espacio muestral más útil es:

\[\Omega = \{\text{las } V \text{ formas verbales del corpus}\} = \{w_1, w_2, \ldots, w_V\}.\]

Para el corpus §A13, \(V \approx 600\), siendo \(w_i\) una forma verbal específica (p. ej., w_{37} podría ser worked, w_{38} podría ser el par en español trabajó).

Una distribución de probabilidad \(p\) sobre \(\Omega\) es una función \(p : \Omega \to [0, 1]\) con \(\sum_i p(w_i) = 1\). La distribución categórica es exactamente esto: una distribución discreta sobre un conjunto finito.

A lo largo de esta fase, "distribución" significa categórica salvo que digamos lo contrario. Los vectores en \(\Delta^{V-1}\) (el \((V-1)\)-símplex) son los objetos naturales.

Conjunta, marginal, condicional¶

Sea \(X\) la variable aleatoria del prefijo (p. ej., el contexto de entrada del modelo) y \(Y\) la del siguiente token de salida (una de las \(V\) formas). Entonces:

Conjunta: \(p(X = x, Y = y)\) — la probabilidad de un par (prefijo, siguiente token) concreto.
Marginal: \(p(Y = y) = \sum_x p(X = x, Y = y)\) — la probabilidad de \(Y = y\) con independencia de \(x\).
Condicional: \(p(Y = y \mid X = x) = \dfrac{p(X = x, Y = y)}{p(X = x)}\), definida cuando \(p(X = x) > 0\).

La salida del modelo es exactamente la condicional: dado el prefijo, ¿cuál es la distribución sobre los siguientes tokens? El entrenamiento ajusta \(\theta\) para que \(q_\theta(y \mid x) \to p^*(y \mid x)\).

Ejemplo trabajado: un juguete de 2 tiempos y 2 personas¶

Para concretar, considera un corpus de juguete restringido a {work} como único verbo, con \(\text{tense} \in \{\text{present}, \text{past}\}\) y \(\text{person} \in \{\text{I}, \text{he}\}\):

Forma	Tiempo	Persona
`work`	present	I
`works`	present	he
`worked`	past	I
`worked`	past	he

Observa la ambigüedad superficial: worked aparece en dos celdas. Si el corpus se muestrea uniformemente sobre (tiempo, persona), la marginal \(p(\text{form} = \text{worked}) = 1/2\), mientras que \(p(\text{form} = \text{works}) = 1/4\).

Condicional sobre persona: \(p(\text{form} = \text{works} \mid \text{person} = \text{he}) = 1/2\). Ejemplo diminuto, pero ilustra que la condicional rehace la marginal de forma significativa.

Independencia¶

\(Y\) es independiente de \(X\) (escrito \(Y \perp X\)) si y sólo si \(p(Y \mid X) = p(Y)\) para todo \(X\). En modelado de lenguaje, la independencia es el enemigo: si el siguiente token fuera independiente del prefijo, la predicción sería imposible. Todo el sentido del modelo es explotar las dependencias.

Más adelante medimos esas dependencias con la información mutua (02-entropy-and-kl.md).

Esperanza y varianza¶

Para una función real \(f : \Omega \to \mathbb{R}\):

\[\mathbb{E}_p[f] = \sum_i p(w_i) f(w_i), \qquad \mathrm{Var}_p[f] = \mathbb{E}_p[f^2] - (\mathbb{E}_p[f])^2.\]

Las funciones de pérdida son esperanzas: la entropía cruzada como pérdida es \(\mathbb{E}_{(x,y) \sim p^*}[-\log q_\theta(y \mid x)]\). La media sobre el mini-batch es su estimador muestral.

Ejemplo trabajado: longitud esperada de una forma verbal¶

Define \(f(w_i) = \text{len}(w_i)\) — la longitud en caracteres de la \(i\)-ésima forma. Sobre nuestro juguete de 4 formas:

\[\mathbb{E}[f] = \tfrac{1}{4}(4 + 5 + 6 + 6) = 5.25.\]

Trivial, pero la memoria muscular de la esperanza como suma de (prob × valor) es lo que necesitamos.

Mini-batches y estimadores insesgados¶

En entrenamiento, la esperanza verdadera \(\mathbb{E}_{(x,y) \sim p^*}[L(\theta; x, y)]\) es lo que queremos minimizar. No tenemos \(p^*\); tenemos \(N\) muestras. La media muestral

\[\widehat{L}(\theta) = \frac{1}{B} \sum_{i \in \text{batch}} L(\theta; x_i, y_i)\]

es un estimador insesgado de la esperanza verdadera: \(\mathbb{E}[\widehat{L}] = L\). La varianza escala como \(1/B\) — esto es la base de "batches mayores dan gradientes más limpios".

Usaremos esto directamente en la Fase 18 (training loop) cuando promediemos la entropía cruzada por ejemplo a lo largo del batch.

Distribución empírica¶

Dadas \(N\) observaciones \(\{y^{(1)}, \ldots, y^{(N)}\}\) extraídas de una categórica, la distribución empírica es:

\[\widehat{p}(y) = \frac{1}{N} \sum_n \mathbb{1}[y^{(n)} = y].\]

Propiedades: es una distribución válida; es el MLE de \(p^*\) bajo el modelo categórico (la Fase 03 de este conjunto de archivos de teoría lo demuestra); converge a \(p^*\) cuando \(N \to \infty\) (por la ley de los grandes números).

La distribución empírica es el puente entre "tenemos datos" y "tenemos una distribución contra la que podemos calcular KL".

Práctica numérica: log-probabilidades¶

En la práctica, casi nunca almacenamos \(p(y)\) directamente cuando \(V\) es grande o \(p\) es puntiaguda. En su lugar guardamos \(\log p(y)\):

Las sumas se vuelven log-sum-exp (siguiente archivo de teoría).
Los productos se vuelven sumas (que no hacen underflow tan fácilmente).
Las fórmulas de entropía cruzada y KL se leen más naturalmente sobre log-probabilidades.

Esto es presagio — tratamiento completo en 04-log-sum-exp-and-stability.md.

Lo que este archivo NO cubre¶

Distribuciones continuas (siguiente fase, si llega).
Intercambiabilidad, de Finetti y fundamentos bayesianos (fuera de alcance).
Suficiencia, estadísticos auxiliares, familias exponenciales (vale la pena conocerlos, pero no para la tarea §A13).

Siguiente: 02-entropy-and-kl.md