English · Español
00 — Motivación: por qué alinear con preferencias tras preentrenamiento + SFT¶
🇪🇸 Tras el preentrenamiento y el SFT, el modelo imita el corpus pero no necesariamente lo que queremos. El alineamiento por preferencias cierra esa brecha.
El pipeline hasta aquí¶
Un asistente moderno se construye en tres etapas:
- Preentrenamiento (Fase 17-18): minimiza la entropía cruzada del siguiente token sobre un corpus grande. Resultado: un modelo que continúa texto.
- Ajuste fino supervisado (SFT): entrena sobre pares (prompt, respuesta ideal). Resultado: un modelo que sigue instrucciones, pero solo tan bien como los demostradores.
- Alineamiento por preferencias (este módulo): RLHF / DPO / RLAIF. Resultado: un modelo que produce respuestas que los humanos prefieren sobre alternativas.
El paso 3 es necesario porque los pasos 1 y 2 comparten una limitación fundamental: la brecha de imitación.
La brecha de imitación¶
El SFT es aprendizaje por imitación. Su pérdida es
Esto maximiza la verosimilitud de los tokens de los demostradores. Dos problemas:
- Problema del techo. El modelo no puede superar a los demostradores. Si el 80% de los demostradores humanos escribe explicaciones gramaticales competentes pero mediocres, el modelo también lo hará.
- Problema distribucional. El SFT asigna probabilidad positiva a cualquier cosa en los datos, incluido el ruido estilístico, las dudas y el relleno. No aprende el ranking entre una gran respuesta y una meramente aceptable.
El alineamiento por preferencias arregla ambos porque la señal es comparativa: "dado \(x\), la respuesta \(y_w\) es preferida sobre \(y_l\)" — un ranking, no un objetivo único.
Por qué los rankings ganan a los targets¶
Un humano puede juzgar fiablemente "A es mejor que B" incluso cuando no puede escribir un A óptimo desde cero. Esta es la misma intuición que en ajedrez: es más fácil evaluar una posición que encontrar la mejor jugada. Por tanto, los datos de preferencias son:
- Más baratos por bit útil que los datos de demostración (Bai et al. 2022).
- Más alineados con el deployment (los usuarios comparan tu modelo con alternativas; no escriben el gold).
- Mejores para suprimir comportamientos malos (puedes bajar el peso de \(y_l\), no solo subir el de \(y_w\)).
El marco HHH¶
El marco de Anthropic (Askell et al. 2021) establece el objetivo del alineamiento:
- Helpful (útil) — completa la tarea del usuario.
- Honest (honesto) — no afirma cosas falsas; expresa incertidumbre calibrada.
- Harmless (inofensivo) — rehúsa ayudar con peticiones claramente dañinas.
Estos tres tiran en direcciones distintas (la utilidad puede entrar en conflicto con lo inofensivo — "dime cómo hacer X dañino"). El alineamiento por preferencias es el mecanismo por el cual un lab codifica su trade-off entre ellos. No hay un único asistente "correcto"; está el asistente que describen tus datos de preferencias.
El marco del tutor gramatical para §A13¶
Para el tutor gramatical §A13, HHH se especializa así:
- Helpful: el tutor propone la corrección de conjugación correcta.
- Honest: el tutor señala cuando la frase de entrada ya es correcta en lugar de inventar un error falso (un modo de fallo real de los tutores solo-SFT).
- Harmless: menos saliente aquí, pero el tutor no debe inventar insultos, vulgaridades o meta-afirmaciones engañosas como "así es como lo dicen todos los hablantes de inglés."
Los labs de este módulo instancian estos tres de forma concreta.
Lo que hará este módulo¶
| Lab | Qué entrenas | Señal |
|---|---|---|
| 00 | Un modelo de recompensa (RM) sobre 200 preferencias pareadas | Etiquetas "\(y_w\) mejor que \(y_l\)" |
| 01 | Ajuste fino con DPO del tutor LoRA de la Fase 28 | Los mismos pares, pero sin RM separado — DPO colapsa RM + RL en una sola pérdida |
| 02 | Bucle constitucional de revisión | El modelo critica y revisa sus propias salidas contra una constitución escrita; destilas las revisiones vía SFT |
Enlaces cruzados¶
- Fase 18 — Bucle de entrenamiento: la etapa SFT que precede a todo lo de aquí.
- Fase 20 — Arnés de evaluación: la evaluación que captura los fallos de la brecha de imitación.
Referencias¶
- Askell et al. 2021, A General Language Assistant as a Laboratory for Alignment. arXiv:2112.00861.
- Ouyang et al. 2022, Training language models to follow instructions with human feedback. arXiv:2203.02155.
- Bai et al. 2022, Training a Helpful and Harmless Assistant with RLHF. arXiv:2204.05862.