English · Español

04 — DPO y métodos directos¶

🇪🇸 DPO: la política óptima bajo restricción KL tiene forma cerrada; sustituyendo la recompensa, la pérdida BT se convierte en una pérdida sobre la propia política. Sin RM separado, sin rollouts.

DPO (Rafailov et al. 2023) es un ejercicio algebraico de cuatro pasos que elimina la maquinaria RM-y-PPO del capítulo 03 y la reemplaza con una única pérdida supervisada sobre pares de preferencias. Este capítulo recorre la derivación.

Paso 0: el objetivo de RL con restricción KL¶

El objetivo que PPO intenta resolver (capítulo 03) es:

\[ \max_{\pi_\theta}\, \mathbb{E}_{x \sim \mathcal{D},\, y \sim \pi_\theta(\cdot \mid x)}\!\left[ r(x, y) \right] - \beta\, \mathrm{KL}\!\left( \pi_\theta(\cdot \mid x) \,\Vert\, \pi_{\text{ref}}(\cdot \mid x) \right) \]

Es una optimización con restricciones sobre la distribución por prompt \(\pi_\theta(\cdot \mid x)\).

Paso 1: la política óptima en forma cerrada¶

Para una recompensa \(r\) fija, este objetivo tiene un maximizador en forma cerrada. Poniendo a cero la derivada del Lagrangiano respecto a \(\pi(y|x)\) (con la restricción de normalización) se obtiene:

\[ \pi^*(y \mid x) = \frac{1}{Z(x)}\, \pi_{\text{ref}}(y \mid x)\, \exp\!\left( \frac{1}{\beta} r(x, y) \right) \]

donde \(Z(x) = \sum_y \pi_{\text{ref}}(y \mid x)\, \exp(r(x,y)/\beta)\) es la función de partición sobre respuestas.

Esbozo de derivación. El objetivo en términos de \(\pi(\cdot|x)\) es

\[ \mathbb{E}_{y \sim \pi}[r(x,y)] - \beta \sum_y \pi(y|x) \log \frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)}. \]

Añadiendo un multiplicador de Lagrange \(\lambda(x)\) para \(\sum_y \pi(y|x) = 1\) y tomando \(\partial / \partial \pi(y|x)\):

\[ r(x,y) - \beta\!\left(\log \frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)} + 1\right) - \lambda(x) = 0 \]

Resolviendo para \(\pi(y|x)\):

\[ \pi(y|x) = \pi_{\text{ref}}(y|x)\, \exp\!\left( \frac{r(x,y) - \beta - \lambda(x)}{\beta} \right) \]

El factor \(\exp(-1 - \lambda(x)/\beta)\) se factoriza como función solo de \(x\) — esto es \(1/Z(x)\) tras la normalización. \(\square\)

Este resultado es clásico (distribución Gibbs-Boltzmann; RL de máxima entropía; Ziebart 2010). La contribución de DPO es lo que viene a continuación.

Paso 2: invertir para expresar la recompensa en términos de la política¶

Toma el logaritmo del paso 1:

\[ \log \pi^*(y|x) = \log \pi_{\text{ref}}(y|x) + \frac{1}{\beta} r(x,y) - \log Z(x) \]

Reordena para \(r\):

\[ \boxed{\, r(x, y) = \beta\, \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta\, \log Z(x) \,} \]

Esta es la identidad DPO: dada la política óptima \(\pi^*\), la recompensa se recupera (salvo una función solo de \(x\)) como \(\beta\) veces el log del ratio de políticas.

Paso 3: enchúfalo en Bradley-Terry¶

El capítulo 02 dio el modelo de preferencias BT:

\[ P(y_w \succ y_l \mid x) = \sigma(r(x, y_w) - r(x, y_l)) \]

Lo que importa es la diferencia \(r(x, y_w) - r(x, y_l)\); el término \(\beta \log Z(x)\) se cancela porque depende solo de \(x\). Sustituyendo el paso 2:

\[ r(x, y_w) - r(x, y_l) = \beta\, \log \frac{\pi^*(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\, \log \frac{\pi^*(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \]

Así la verosimilitud BT queda expresada directamente en términos de la política \(\pi^*\) — no se necesita una función de recompensa separada \(r_\phi\).

Paso 4: la pérdida DPO¶

Parametriza \(\pi^* \equiv \pi_\theta\) y minimiza la log-verosimilitud negativa de las preferencias observadas:

\[ \boxed{\, \mathcal{L}_{\text{DPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l)\sim\mathcal{D}} \log \sigma\!\left( \beta\, \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\, \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \,} \]

Eso es todo. El pipeline completo es:

Calcular \(\log \pi_\theta(y_w | x)\) — un forward pass por \(\pi_\theta\).
Calcular \(\log \pi_{\text{ref}}(y_w | x)\) — un forward pass por la \(\pi_{\text{ref}}\) congelada.
Lo mismo para \(y_l\).
Forma las cuatro log-probs, aplica la sigmoide, toma el logaritmo, retropropaga.

Sin RM. Sin rollouts. Sin estimación de ventajas. Sin cabeza de valor. Todo el aparato del capítulo 03 desaparece.

Qué está haciendo el gradiente de DPO¶

Toma \(\nabla_\theta \mathcal{L}_{\text{DPO}}\). Usando \(\nabla \log \sigma(z) = \sigma(-z) = 1 - \sigma(z)\):

\[ \nabla_\theta \mathcal{L}_{\text{DPO}} = -\beta\, \mathbb{E}\!\left[\, \sigma\!\left( \hat r_l - \hat r_w \right) \cdot \left( \nabla_\theta \log \pi_\theta(y_w|x) - \nabla_\theta \log \pi_\theta(y_l|x) \right) \,\right] \]

donde \(\hat r = \beta \log(\pi_\theta / \pi_{\text{ref}})\) es la recompensa implícita.

Leyéndolo:

El "peso" \(\sigma(\hat r_l - \hat r_w)\) es grande cuando la recompensa implícita está mal (el perdedor puntúa actualmente más alto que el ganador) y pequeño cuando ya está bien. Esto es una ponderación de ejemplos difíciles incorporada gratis — DPO baja el peso de los ejemplos fáciles sin que tú hagas nada.
La dirección del gradiente es "incrementar \(\log \pi_\theta(y_w|x)\), decrementar \(\log \pi_\theta(y_l|x)\)" — forma contrastiva estándar. La política de referencia mantiene las log-probs absolutas ancladas.

Por qué DPO es una MLE de Bradley-Terry¶

Por construcción. El paso 3 muestra que la verosimilitud BT es la misma función tanto si parametrizas la recompensa directamente como vía el ratio de políticas. DPO es literalmente la MLE del modelo BT con la parametrización por ratio de políticas. Por eso DPO hereda las garantías estadísticas de BT (consistencia, normalidad asintótica de \(\hat\theta\)) bajo regularidad estándar.

También significa que DPO hereda las limitaciones de BT: si tus datos de preferencias no son consistentes por pares (ciclos en las preferencias, ruido en las etiquetas), DPO tiene el mismo problema que PPO+RM.

Cuándo DPO supera a PPO¶

Hallazgos empíricos (Rafailov et al. 2023; Tunstall et al. 2023 Zephyr; muchos otros):

Regímenes de datos pequeños (\(<10\)k pares): DPO gana, principalmente porque PPO necesita primero entrenar un RM usable.
Mismo presupuesto KL: DPO iguala o supera a PPO en tasa de victoria downstream con la misma KL al modelo de referencia.
Ingeniería: DPO no requiere infra de rollouts; entrena sobre pares de preferencias estáticos como un SFT.

Cuándo PPO sigue ganando:

Iteración online. PPO muestrea naturalmente de la política actual; puedes intercalar actualizaciones del RM con actualizaciones de política. DPO es offline contra un dataset fijo.
Reward shaping. Uso de herramientas, ejecución de código, verificadores matemáticos — entornos donde la recompensa es computable desde la respuesta (no desde preferencias) — favorecen fuertemente a PPO/GRPO sobre DPO.

La familia de métodos directos¶

DPO desencadenó una pequeña explosión de variantes. Las que hay que conocer:

IPO — Identity Preference Optimization (Azar et al. 2023)¶

Reemplaza la sigmoide (BT) con una pérdida cuadrática directamente sobre la diferencia de log-ratio:

\[ \mathcal{L}_{\text{IPO}} = \mathbb{E}\!\left[\left( \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} - \frac{1}{2\beta} \right)^2\right] \]

Motivación: DPO puede sobreajustarse cuando las preferencias son deterministas (la sigmoide se satura → \(\sigma \to 1\) → sin tope de gradiente). IPO acota la brecha de recompensa implícita explícitamente, evitando el fallo de "sobreajuste por saturación."

KTO — Kahneman-Tversky Optimization (Ethayarajh et al. 2024)¶

Funciona con etiquetas binarias no pareadas ("la respuesta es buena" o "la respuesta es mala"), no con pares. La pérdida es una función con forma de teoría de prospectos sobre la recompensa implícita:

\[ \mathcal{L}_{\text{KTO}} = \mathbb{E}_{y \sim \text{desired}}\!\left[ 1 - \sigma(\beta \log \tfrac{\pi_\theta}{\pi_{\text{ref}}} - z_0) \right] + \mathbb{E}_{y \sim \text{undesired}}\!\left[ 1 - \sigma(z_0 - \beta \log \tfrac{\pi_\theta}{\pi_{\text{ref}}}) \right] \]

donde \(z_0\) es un punto de referencia (KL a una línea base uniforme). Útil cuando tienes datos de "thumbs-up/down" pero no comparaciones pareadas.

ORPO — Odds Ratio Preference Optimization (Hong et al. 2024)¶

Combina la pérdida SFT y la de preferencias en una sola etapa añadiendo un término de log-odds-ratio a la pérdida SFT:

\[ \mathcal{L}_{\text{ORPO}} = \mathcal{L}_{\text{SFT}}(y_w) + \lambda\, \log \sigma\!\left( \log \frac{\mathrm{odds}_\theta(y_w|x)}{\mathrm{odds}_\theta(y_l|x)} \right) \]

donde \(\mathrm{odds}_\theta(y|x) = \pi_\theta(y|x) / (1 - \pi_\theta(y|x))\). Una sola etapa, sin modelo de referencia necesario; competitivo con el SFT+DPO en dos etapas.

Tabla de comparación¶

Método	Pares / Binario	Modelo de referencia	Una sola etapa	Propiedad notable
PPO+RM	Pares (vía RM)	Sí	No (3 etapas)	Online; necesita rollouts
DPO	Pares	Sí	No (SFT luego DPO)	MLE de BT en forma cerrada
IPO	Pares	Sí	No	Recompensa implícita acotada; menos sobreajuste
KTO	Binario	Sí	No	Funciona con thumbs-up/down
ORPO	Pares	No	Sí	Pliega SFT y preferencias

Elegir \(\beta\) en DPO¶

Mismo papel que en PPO: perilla de región de confianza. Valores típicos \(\beta \in [0{,}1, 0{,}5]\) — fíjate que esto es mayor que en PPO porque la superficie de pérdida y la parametrización son diferentes. El Lab 01 usa \(\beta = 0{,}1\).

Efecto:

\(\beta\) pequeña → actualizaciones mayores, puede derivar, puede saturar la sigmoide.
\(\beta\) grande → actualizaciones diminutas, aprendizaje lento.

Enlaces cruzados¶

Teoría 02 — Modelado de recompensa: Bradley-Terry, que DPO hereda.
Teoría 03 — PPO para lenguaje: el objetivo de RL con restricción KL cuya solución DPO invierte.
Lab 01 — DPO sobre el tutor gramatical: la implementación de ~50 líneas.
Fase 28 — LoRA: DPO se hace abrumadoramente sobre adaptadores LoRA en la práctica.

Referencias¶

Rafailov et al. 2023, Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290.
Azar et al. 2023, A General Theoretical Paradigm to Understand Learning from Human Preferences (IPO). arXiv:2310.12036.
Ethayarajh et al. 2024, KTO: Model Alignment as Prospect Theoretic Optimization. arXiv:2402.01306.
Hong et al. 2024, ORPO: Monolithic Preference Optimization without Reference Model. arXiv:2403.07691.
Tunstall et al. 2023, Zephyr: Direct Distillation of LM Alignment. arXiv:2310.16944.
Ziebart 2010, Modeling Purposeful Adaptive Behavior with the Principle of Maximum Causal Entropy (tesis doctoral, CMU).