Skip to content

English · Español

00 — Motivación: por qué alinear con preferencias tras preentrenamiento + SFT

🇪🇸 Tras el preentrenamiento y el SFT, el modelo imita el corpus pero no necesariamente lo que queremos. El alineamiento por preferencias cierra esa brecha.

El pipeline hasta aquí

Un asistente moderno se construye en tres etapas:

  1. Preentrenamiento (Fase 17-18): minimiza la entropía cruzada del siguiente token sobre un corpus grande. Resultado: un modelo que continúa texto.
  2. Ajuste fino supervisado (SFT): entrena sobre pares (prompt, respuesta ideal). Resultado: un modelo que sigue instrucciones, pero solo tan bien como los demostradores.
  3. Alineamiento por preferencias (este módulo): RLHF / DPO / RLAIF. Resultado: un modelo que produce respuestas que los humanos prefieren sobre alternativas.

El paso 3 es necesario porque los pasos 1 y 2 comparten una limitación fundamental: la brecha de imitación.

La brecha de imitación

El SFT es aprendizaje por imitación. Su pérdida es

\[ \mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(x,y)\sim\mathcal{D}}\left[\sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{<t})\right] \]

Esto maximiza la verosimilitud de los tokens de los demostradores. Dos problemas:

  1. Problema del techo. El modelo no puede superar a los demostradores. Si el 80% de los demostradores humanos escribe explicaciones gramaticales competentes pero mediocres, el modelo también lo hará.
  2. Problema distribucional. El SFT asigna probabilidad positiva a cualquier cosa en los datos, incluido el ruido estilístico, las dudas y el relleno. No aprende el ranking entre una gran respuesta y una meramente aceptable.

El alineamiento por preferencias arregla ambos porque la señal es comparativa: "dado \(x\), la respuesta \(y_w\) es preferida sobre \(y_l\)" — un ranking, no un objetivo único.

Por qué los rankings ganan a los targets

Un humano puede juzgar fiablemente "A es mejor que B" incluso cuando no puede escribir un A óptimo desde cero. Esta es la misma intuición que en ajedrez: es más fácil evaluar una posición que encontrar la mejor jugada. Por tanto, los datos de preferencias son:

  • Más baratos por bit útil que los datos de demostración (Bai et al. 2022).
  • Más alineados con el deployment (los usuarios comparan tu modelo con alternativas; no escriben el gold).
  • Mejores para suprimir comportamientos malos (puedes bajar el peso de \(y_l\), no solo subir el de \(y_w\)).

El marco HHH

El marco de Anthropic (Askell et al. 2021) establece el objetivo del alineamiento:

  • Helpful (útil) — completa la tarea del usuario.
  • Honest (honesto) — no afirma cosas falsas; expresa incertidumbre calibrada.
  • Harmless (inofensivo) — rehúsa ayudar con peticiones claramente dañinas.

Estos tres tiran en direcciones distintas (la utilidad puede entrar en conflicto con lo inofensivo — "dime cómo hacer X dañino"). El alineamiento por preferencias es el mecanismo por el cual un lab codifica su trade-off entre ellos. No hay un único asistente "correcto"; está el asistente que describen tus datos de preferencias.

El marco del tutor gramatical para §A13

Para el tutor gramatical §A13, HHH se especializa así:

  • Helpful: el tutor propone la corrección de conjugación correcta.
  • Honest: el tutor señala cuando la frase de entrada ya es correcta en lugar de inventar un error falso (un modo de fallo real de los tutores solo-SFT).
  • Harmless: menos saliente aquí, pero el tutor no debe inventar insultos, vulgaridades o meta-afirmaciones engañosas como "así es como lo dicen todos los hablantes de inglés."

Los labs de este módulo instancian estos tres de forma concreta.

Lo que hará este módulo

Lab Qué entrenas Señal
00 Un modelo de recompensa (RM) sobre 200 preferencias pareadas Etiquetas "\(y_w\) mejor que \(y_l\)"
01 Ajuste fino con DPO del tutor LoRA de la Fase 28 Los mismos pares, pero sin RM separado — DPO colapsa RM + RL en una sola pérdida
02 Bucle constitucional de revisión El modelo critica y revisa sus propias salidas contra una constitución escrita; destilas las revisiones vía SFT

Enlaces cruzados

Referencias

  • Askell et al. 2021, A General Language Assistant as a Laboratory for Alignment. arXiv:2112.00861.
  • Ouyang et al. 2022, Training language models to follow instructions with human feedback. arXiv:2203.02155.
  • Bai et al. 2022, Training a Helpful and Harmless Assistant with RLHF. arXiv:2204.05862.