English · Español

Módulo de extensión X3 — RLHF, DPO y RLAIF¶

Requiere: 05 — Probabilidad y teoría de la información · 19 — Dinámica de entrenamiento y debugging · 28 — Fine-tuning, LoRA, QLoRA Enseña: rlhf · reward-modeling · ppo · dpo · constitutional-ai Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo¶

🇪🇸 Módulo de extensión sobre alineamiento por preferencias: RLHF (PPO), DPO (método directo) y RLAIF / Constitutional AI. Cierra la brecha "RL/RLHF beyond conceptual coverage" del HIRING_PATH.md.

Estado¶

Track: Extensión (paralelo al currículo central de 40 fases)
Autorización: Addendum A15 (tracks de extensión autorizados)
Prerrequisitos: Fase 04 (cálculo/optimización), Fase 17 (mini-GPT), Fase 19 (dinámica de entrenamiento), Fase 28 (LoRA/QLoRA)
Salvaguarda de alcance: Todos los labs usan el alcance del tutor gramatical §A13 (20 verbos, 5 tiempos, 3 personas). Sin expansión de alcance.
Límite de hardware: Solo CPU (i5-8250U); todos los labs corren de extremo a extremo sin GPU.

Por qué existe este módulo¶

El currículo central cubre preentrenamiento (Fase 17-18), evaluación (Fase 20) e inferencia (Fase 21). No cubre el bucle de alineamiento posterior al entrenamiento que convierte un modelo de lenguaje base en un asistente — esto es lo que hace cada lab de producción (OpenAI, Anthropic, DeepMind, Meta) tras el SFT, y lo que una entrevista de estilo Anthropic explorará en profundidad.

Este módulo rellena ese hueco con:

Teoría — la matemática de gradientes de política, modelado de recompensa, PPO, DPO y Constitutional AI.
Labs — tres labs prácticos sobre el tutor gramatical §A13 que ejercitan cada técnica de extremo a extremo en CPU.

Mapa del módulo¶

Archivo	Tema
`theory/00-motivation.md`	Por qué alinear con preferencias tras el SFT; la brecha de imitación; el marco HHH
`theory/01-rl-fundamentals.md`	REINFORCE → PG con línea base → clipping de PPO
`theory/02-reward-modeling.md`	Bradley-Terry, reward hacking, curva en U de sobre-optimización
`theory/03-ppo-for-language.md`	Receta de InstructGPT, penalización KL al modelo de referencia
`theory/04-dpo-and-direct-methods.md`	Derivación de DPO; comparación con KTO, IPO, ORPO
`theory/05-constitutional-ai-and-rlaif.md`	Constitutional AI, RLAIF, pasos supervisado + RL de CAI
`lab/00-reward-model-from-preferences.md`	Entrena un modelo de recompensa diminuto sobre 200 preferencias pareadas de correcciones gramaticales
`lab/01-dpo-on-grammar-tutor.md`	Ajuste fino con DPO del tutor gramatical LoRA de la Fase 28
`lab/02-constitutional-revision-loop.md`	Bucle constitucional de autocrítica → revisión → destilación SFT

Enlaces cruzados al currículo central¶

Fase 04 — Cálculo y optimización: el gradiente de política es retropropagación con una pérdida distinta.
Fase 19 — Dinámica de entrenamiento: la restricción KL es una herramienta de dinámica de entrenamiento.
Fase 28 — LoRA / QLoRA: el DPO se hace casi siempre sobre adaptadores (coste extra bajo).
Fase 37 — Seguridad y safety: el alineamiento es una historia de safety; Constitutional AI es lo que Anthropic envía a producción.

Referencias clave¶

Ouyang et al. 2022 — Training language models to follow instructions with human feedback (InstructGPT).
Rafailov et al. 2023 — Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO).
Bai et al. 2022 — Constitutional AI: Harmlessness from AI Feedback (CAI / RLAIF de Anthropic).
Gao et al. 2022 — Scaling Laws for Reward Model Overoptimization.
Lambert 2024 — Reinforcement Learning from Human Feedback (survey de preference tuning).

Definition of Done¶

Los seis archivos de teoría revisados por math-reviewer.
El RM del Lab 00 alcanza >70% de precisión en una evaluación retenida de 40 pares.
El modelo DPO del Lab 01 alcanza >55% de tasa de victoria frente al baseline SFT en un test retenido de 50 pares.
El Lab 02 muestra mejora medible en una evaluación retenida tras un ciclo de revisión-destilación.
mkdocs build --strict pasa con este módulo incluido en la navegación.

Lecturas recomendadas¶

Opcional — enriquece pero no es necesario para aprobar la fase.

📄 Training Language Models to Follow Instructions (InstructGPT) — Ouyang et al. · 2022. el pipeline de RLHF, de principio a fin.
📄 Direct Preference Optimization (DPO) — Rafailov et al. · 2023. alineamiento sin reward model separado ni PPO.
📄 Constitutional AI: Harmlessness from AI Feedback — Bai et al. · 2022. RLAIF — feedback de un modelo, no de una multitud.