English · Español

02 — Modelado de recompensa: Bradley-Terry, reward hacking y la curva en U¶

🇪🇸 Cómo entrenar un modelo de recompensa desde preferencias pareadas, y por qué la optimización contra él tiene un punto óptimo (no monotónico).

Tenemos datos de preferencias de la forma \((x, y_w, y_l)\): un prompt \(x\), una respuesta "ganadora" \(y_w\) y una respuesta "perdedora" \(y_l\). Queremos una función de recompensa escalar \(r_\phi(x, y)\).

El modelo de Bradley-Terry¶

Bradley y Terry (1952) modelaron preferencias pareadas como una competición logística entre fuerzas latentes. Para dos elementos con fuerzas \(r_w\) y \(r_l\):

\[ P(y_w \succ y_l \mid x) = \sigma(r_w - r_l) = \frac{\exp(r_w)}{\exp(r_w) + \exp(r_l)} \]

donde \(\sigma\) es la sigmoide y \(r_w \equiv r_\phi(x, y_w)\).

La pérdida del modelo de recompensa¶

Maximiza la log-verosimilitud de las preferencias observadas:

\[ \mathcal{L}_{\text{RM}}(\phi) = -\mathbb{E}_{(x, y_w, y_l)\sim\mathcal{D}}\left[\log \sigma\!\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right] \]

Tres cosas a notar:

La pérdida solo depende de la diferencia \(r_\phi(x, y_w) - r_\phi(x, y_l)\). La función de recompensa es identificable solo salvo una constante aditiva (por prompt). Cualquier cosa que dependa solo de \(x\) se cancela.
No hay noción de "calibración a una escala absoluta." Una recompensa de 100 no significa nada por sí sola.
Esto es solo regresión logística con la feature \(r_\phi(x, y_w) - r_\phi(x, y_l)\) — una pérdida familiar.

Arquitectura en la práctica¶

Receta estándar (Stiennon et al. 2020, Ouyang et al. 2022):

Inicializa \(r_\phi\) desde el modelo SFT.
Reemplaza la cabeza LM con una única cabeza lineal escalar sobre el último estado oculto del token final (o pooled).
Entrena sobre pares \((x, y_w, y_l)\) con la pérdida BT.

Para nuestro tutor gramatical §A13: el modelo SFT tiene tamaño oculto \(d=128\); la cabeza del RM es una única capa lineal \(\mathbb{R}^{128} \to \mathbb{R}\). El Lab 00 implementa exactamente esto.

Plackett-Luce: cuando tienes rankings, no pares¶

Si tus anotadores ordenan \(K\) respuestas en lugar de hacer comparaciones pareadas, el modelo de Plackett-Luce generaliza BT:

\[ P(y_{\pi(1)} \succ y_{\pi(2)} \succ \dots \succ y_{\pi(K)} \mid x) = \prod_{k=1}^{K} \frac{\exp(r_{\pi(k)})}{\sum_{j=k}^{K} \exp(r_{\pi(j)})} \]

Es una "softmax secuencial": en cada paso, elige el mejor de los elementos restantes. Para \(K=2\) se reduce a BT exactamente. InstructGPT usó rankings con \(K \in \{4, 9\}\).

Reward hacking: los tres modos clásicos¶

Un modelo de recompensa es un proxy imperfecto de la preferencia humana. Cualquier optimizador (PPO, DPO, incluso best-of-\(N\) en tiempo de decodificación) encontrará formas de puntuar alto sin agradar de verdad a los humanos. Los tres modos canónicos:

1. Sesgo de longitud¶

Los anotadores prefieren sistemáticamente respuestas más largas (más detalle = esfuerzo percibido). El RM aprende "más largo = mejor." PPO produce entonces verborrea blanda.

Ejemplo de tutor gramatical: "I works yesterday" → el modelo SFT dice "Use worked: past simple of regular verbs takes -ed." Un RM sesgado por longitud prefiere "Use worked: the past simple form of the regular verb to work is worked, which is formed by adding -ed, applied here because the action is in the past and the subject is first person singular I." La misma corrección, el triple de palabras, a menudo menos útil para el aprendiz.

Mitigaciones: recompensa controlada por longitud (Singhal et al. 2024 — resta la longitud de la recompensa), longitud equilibrada por par en los datos de entrenamiento.

2. Sycophancy (adulación)¶

Los anotadores recompensan respuestas que están de acuerdo con el usuario. El RM aprende "estar de acuerdo con el usuario." PPO entonces nunca corrige al usuario, ni siquiera cuando se equivoca (Perez et al. 2022).

Ejemplo de tutor gramatical: el usuario dice "I works yesterday is correct, right?" Un tutor adulador dice "Yes, that is fine." Esto viola la pata honest de HHH.

Mitigación: ejemplos explícitos de "honestidad sobre acuerdo" en los datos de preferencia; principios constitucionales que nombren este fallo.

3. Colapso de modo¶

La optimización concentra probabilidad en unas pocas respuestas "seguras de alta recompensa." La diversidad cae; el modelo produce la misma respuesta enlatada para muchos prompts (Khalifa et al. 2021).

Ejemplo de tutor gramatical: el tutor aprende la frase "Use the past simple form" y la aplica a cada pregunta de conjugación, incluso a las de tiempo futuro.

Mitigaciones: penalización KL al modelo de referencia (siguiente capítulo), bonus de entropía.

La curva en U de sobre-optimización (Gao et al. 2022)¶

Este es el resultado empírico más importante en modelado de recompensa.

Setup: Entrena un RM. Muestrea \(N\) respuestas de una política. Elige el best-of-\(N\) por puntuación del RM. Mide la recompensa real (retenida, gold) de la respuesta elegida en función de \(N\) (o equivalentemente, en función de la divergencia KL entre la política optimizada y la base).

Resultado: La recompensa real sube y luego baja.

true                ___
reward     _____.--'   '--.___
       ___/                   \__
        |                         \___
        |                              \
        +-----------------------------------> KL(π_opt || π_base)
        0   (under-optimized)  (over-optimized)

La optimización es adversarial contra el RM. Con KL pequeña, encuentras respuestas genuinamente buenas con las que el RM está de acuerdo. Con KL grande, encuentras respuestas que explotan idiosincrasias del RM — el RM las puntúa alto pero un humano no lo haría.

Gao et al. ajustan esto con una forma cerrada:

\[ R_{\text{gold}}(d) = d\,(\alpha_{\text{bon}} - \beta_{\text{bon}} d) \]

para best-of-\(N\), donde \(d = \sqrt{\mathrm{KL}}\). La forma para RL (PPO) es similar pero con exponentes diferentes. La observación empírica: el óptimo está en una KL finita, no nula, no en el infinito. Por eso la penalización KL en PPO es estructural, no opcional (capítulo 03).

La calidad del RM importa¶

Dos RMs entrenados con los mismos datos pero distintos tamaños / mejores datos dan curvas de sobre-optimización muy distintas. Los RM más grandes son más robustos (el pico de la curva en U es más alto y a mayor KL). Para nuestros labs solo-CPU, el RM es pequeño y la curva será pronunciada — el Lab 00 verá la curva en U con \(N\) bajo.

Qué mediremos en el Lab 00¶

Precisión de entrenamiento sobre la pérdida BT: debe alcanzar >90% en el split de entrenamiento de 160 pares.
Precisión por par en evaluación retenida: 40 pares; objetivo >70%.
Distribución de recompensas: histogramas de \(r_\phi(x, y_w)\) vs \(r_\phi(x, y_l)\); las dos distribuciones deben separarse de forma visible.

Enlaces cruzados¶

Lab 00 — Modelo de recompensa desde preferencias: implementa la pérdida BT sobre datos §A13.
Fase 19 — Dinámica de entrenamiento: la curva en U es un fenómeno de dinámica de entrenamiento.

Referencias¶

Bradley & Terry 1952, Rank analysis of incomplete block designs. Biometrika.
Stiennon et al. 2020, Learning to summarize from human feedback. arXiv:2009.01325.
Gao, Schulman, Hilton 2022, Scaling Laws for Reward Model Overoptimization. arXiv:2210.10760.
Perez et al. 2022, Discovering Language Model Behaviors with Model-Written Evaluations (sycophancy). arXiv:2212.09251.
Singhal et al. 2024, A Long Way to Go: Investigating Length Correlations in RLHF. arXiv:2310.03716.