English · Español

05 — Constitutional AI y RLAIF¶

🇪🇸 Constitutional AI (Anthropic, 2022): un conjunto de principios escritos guía al modelo a criticar y revisar sus propias respuestas; las revisiones se destilan vía SFT, y luego un modelo de recompensa entrenado con preferencias de IA alimenta RLAIF.

El problema que motiva¶

Las recetas PPO y DPO (capítulos 03 y 04) dependen ambas de un corpus de preferencias pareadas humanas. Tres problemas:

Coste. El RLHF a escala Anthropic necesita $10^5$–$10^6$ pares de preferencias. A minutos por par, son muchos años-persona.
Cobertura. Los humanos no pueden enumerar todo tipo de respuesta dañina o de baja calidad. Los datos tienen huecos.
Honestidad sobre los valores. El comportamiento del modelo lo determina lo que los anotadores casualmente prefirieron. No hay declaración explícita ni auditable de qué se supone que debe hacer el modelo.

Constitutional AI (Bai et al. 2022) aborda los tres: reemplaza la mayoría de los anotadores de preferencias por el propio modelo, guiado por una constitución escrita.

El pipeline CAI en dos etapas¶

El CAI de Anthropic tiene dos etapas, ambas nuevas encima del pipeline InstructGPT del capítulo 03:

Etapa 1: CAI supervisado (SL-CAI)¶

Para cada prompt de red-team $x$:

Muestrea una respuesta inicial $y_0 \sim \pi^{\text{SFT}}(\cdot \mid x)$.
Autocrítica. Pide al mismo modelo: "Identifica formas en que la última respuesta fue [dañina / deshonesta / poco útil], según el principio $P_i$." Produce una crítica $c_i$.
Auto-revisión. Pide al modelo: "Reescribe la respuesta para abordar la crítica." Produce una respuesta revisada $y_1$.
Opcionalmente itera (critica $y_1$, revisa a $y_2$, etc.).
Ajusta finamente $\pi^{\text{SFT}}$ sobre los pares $(x, y_{\text{final}})$ vía SFT. El resultado es $\pi^{\text{SL-CAI}}$.

Esto es destilación del bucle de revisión constitucional en los pesos. Tras SL-CAI, el modelo produce respuestas similares a las salidas post-revisión sin necesidad de ejecutar explícitamente el paso de crítica en inferencia.

Etapa 2: RLAIF (RL-CAI)¶

Ahora entrena un modelo de recompensa sobre preferencias generadas por IA en lugar de humanas:

Muestrea dos respuestas $y_a, y_b \sim \pi^{\text{SL-CAI}}(\cdot \mid x)$.
Pregunta al modelo: "¿Qué respuesta satisface mejor el principio $P_i$?" El modelo devuelve una etiqueta.
Agrega etiquetas a través de los principios (a menudo vía log-probs de los tokens "A" vs "B" como etiquetas suaves, luego pérdida BT).
Entrena un modelo de recompensa $r_\phi$ sobre estas preferencias etiquetadas por IA.
Corre PPO (capítulo 03) con este modelo de recompensa. El resultado es $\pi^{\text{RL-CAI}}$.

El cambio clave respecto al RLHF: el paso 2 solía ser un humano. Ahora es el modelo evaluando contra una constitución escrita.

Cómo es una constitución¶

La constitución de Anthropic publicada (Bai et al. 2022, Apéndice C) tiene $\sim$16 principios. Algunos ejemplos representativos (parafraseados):

"Por favor, elige la respuesta que sea más útil, honesta e inofensiva."
"Identifica formas específicas en que la última respuesta del asistente es dañina, poco ética, racista, sexista, tóxica, peligrosa o ilegal."
"Elige la respuesta que sea más reflexiva y atractiva."
"Elige la respuesta que menos suene como si la hubiera escrito un niño."

La forma es intencional: corta, en inglés, fácil de auditar, fácil de enmendar. Compáralo con un modelo de recompensa aprendido — un conjunto fijo de pesos sin estructura interpretable.

Una constitución de tutor gramatical (usada en el Lab 02)¶

Para §A13, instanciamos una constitución de tres principios:

Correcto. "Elige la respuesta que identifique correctamente el error de conjugación en la frase de entrada y proponga la forma correcta."
Conciso. "Elige la respuesta que arregle el error con el menor número de palabras siendo clara para un aprendiz de nivel A2."
Honesto. "Si la frase de entrada no tiene error gramatical, elige la respuesta que lo diga claramente en lugar de inventar una corrección."

El tercer principio es crítico: ataca directamente el modo de fallo de sycophancy (capítulo 02).

Por qué RLAIF funciona¶

A priori, suena circular: "el modelo se juzga a sí mismo." Tres razones por las que funciona:

Evaluar es más fácil que generar. Dadas dos correcciones gramaticales, decidir cuál es mejor es mucho más fácil que producir la mejor desde cero. El modelo tiene más margen en la tarea de evaluación que en la de generación.
Anclaje constitucional. El modelo no juzga libremente; juzga contra un principio especificado externamente. La constitución provee el "ground truth" que un RM aprendido necesitaría de otra forma.
Andamiaje de cadena de razonamiento. El paso de crítica razona explícitamente sobre la constitución antes de juzgar. Esto despliega capacidades que el modelo desnudo tiene pero no ejercita zero-shot.

Empíricamente (Bai et al. 2022; Lee et al. 2023 replicación de RLAIF): RLAIF iguala o supera a RLHF en benchmarks de inocuidad con una fracción del coste de anotación humana.

El bucle de revisión supervisada en detalle¶

El bucle SL-CAI es el movimiento más probable que aparezca en una entrevista. Cada iteración:

prompt x
  │
  ▼
sample y_0 ~ π_SFT(·|x)
  │
  ▼
critique-prompt(x, y_0, principle_i) → c_i = "your response was X because..."
  │
  ▼
revise-prompt(x, y_0, c_i)           → y_1 = revised response
  │
  ▼
(optionally repeat with y_1 in place of y_0)
  │
  ▼
collect (x, y_final) → SFT dataset for next-stage model

Dos decisiones de diseño importan:

Qué principios se aplican a qué prompts. Anthropic muestrea aleatoriamente un pequeño subconjunto de principios por prompt para evitar que el modelo se fije en uno solo.
Cuántas rondas de revisión. Rendimientos decrecientes tras 1-2 rondas; el coste es lineal en el número de forward passes por prompt.

Por qué esto es más barato que recoger preferencias humanas¶

Comparación de coste (a ojo, tarifas modernas de API):

Fuente	Coste por preferencia
Contratista humano (cualificado)	$1–5
Autocrítica del modelo (Claude / GPT-class)	$0.001–0.01

Dos o tres órdenes de magnitud. La trampa es que las preferencias de IA son tan buenas como (a) el modelo usado para juzgar y (b) la constitución. Para alineamiento de calidad frontier, el CAI iterado — usar los modelos RL-CAI de última generación para juzgar los datos de entrenamiento de la siguiente — es la jugada estándar.

Modos de fallo específicos de CAI / RLAIF¶

Gaming de la constitución. El modelo puede aprender a satisfacer la letra de la constitución mientras viola su espíritu (p. ej., rechazar peticiones dañinas alucinando una razón de rechazo que es en sí misma deshonesta). Arreglo: principios explícitos de honestidad; auditorías cruzadas entre principios.
Bucle crítica-revisión superficial. El modelo produce críticas formulaicas ("Tu respuesta podría mejorar siendo más útil") y reescribe cosméticamente. Arreglo: prompts de crítica condicionados por principio que exijan fundamentación concreta.
Colapso de modo hacia el rechazo. Es fácil satisfacer "inofensivo" rechazando todo; el sobre-rechazo es un fallo conocido de CAI (Anthropic 2024 tiene principios explícitos de "sé útil cuando sea seguro" para contrarrestar). Arreglo: principios de utilidad ponderados al menos igualmente.
Deriva de la constitución entre iteraciones. Cada nuevo modelo interpreta la constitución de forma ligeramente distinta; los principios pueden necesitar ejemplos explícitos (few-shot en el prompt de crítica) para mantenerse anclados.

Cómo aterriza esto en producción¶

La familia Claude de Anthropic usa un descendiente de CAI para entrenamiento de inocuidad; los detalles evolucionan, pero el bucle central (constitución + autocrítica + auto-revisión + RLAIF) es la respuesta institucional a "cómo alineas un modelo frontier sin quemar 10.000 años-persona de anotación."

Para el alcance del tutor gramatical, el Lab 02 implementa un bucle CAI mínimo: una ronda de autocrítica + auto-revisión contra la constitución de 3 principios anterior, seguida de destilación SFT sobre las respuestas revisadas. Sin RLAIF (eso requeriría un RM nuevo tras CAI; el lab se detiene en SL-CAI).

Enlaces cruzados¶

Teoría 03 — PPO para lenguaje: la etapa RL de RLAIF es idéntica a la de RLHF, solo cambia la fuente de la recompensa.
Lab 02 — Bucle constitucional de revisión: SL-CAI mínimo sobre §A13.
Fase 37 — Seguridad y safety: CAI es lo que Anthropic hace en producción para inocuidad.

Referencias¶

Bai et al. 2022, Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.
Lee et al. 2023, RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.
Anthropic 2023, Claude's Constitution. https://www.anthropic.com/news/claudes-constitution
Askell et al. 2021, A General Language Assistant as a Laboratory for Alignment. arXiv:2112.00861.