English · Español
Módulo de extensión X3 — RLHF, DPO y RLAIF¶
Requiere: 05 — Probabilidad y teoría de la información · 19 — Dinámica de entrenamiento y debugging · 28 — Fine-tuning, LoRA, QLoRA Enseña:
rlhf·reward-modeling·ppo·dpo·constitutional-aiSalta a cualquier capítulo desde el índice de referencia de fases.
Mapa del capítulo¶
🇪🇸 Módulo de extensión sobre alineamiento por preferencias: RLHF (PPO), DPO (método directo) y RLAIF / Constitutional AI. Cierra la brecha "RL/RLHF beyond conceptual coverage" del
HIRING_PATH.md.
Estado¶
- Track: Extensión (paralelo al currículo central de 40 fases)
- Autorización: Addendum A15 (tracks de extensión autorizados)
- Prerrequisitos: Fase 04 (cálculo/optimización), Fase 17 (mini-GPT), Fase 19 (dinámica de entrenamiento), Fase 28 (LoRA/QLoRA)
- Salvaguarda de alcance: Todos los labs usan el alcance del tutor gramatical §A13 (20 verbos, 5 tiempos, 3 personas). Sin expansión de alcance.
- Límite de hardware: Solo CPU (i5-8250U); todos los labs corren de extremo a extremo sin GPU.
Por qué existe este módulo¶
El currículo central cubre preentrenamiento (Fase 17-18), evaluación (Fase 20) e inferencia (Fase 21). No cubre el bucle de alineamiento posterior al entrenamiento que convierte un modelo de lenguaje base en un asistente — esto es lo que hace cada lab de producción (OpenAI, Anthropic, DeepMind, Meta) tras el SFT, y lo que una entrevista de estilo Anthropic explorará en profundidad.
Este módulo rellena ese hueco con:
- Teoría — la matemática de gradientes de política, modelado de recompensa, PPO, DPO y Constitutional AI.
- Labs — tres labs prácticos sobre el tutor gramatical §A13 que ejercitan cada técnica de extremo a extremo en CPU.
Mapa del módulo¶
| Archivo | Tema |
|---|---|
theory/00-motivation.md |
Por qué alinear con preferencias tras el SFT; la brecha de imitación; el marco HHH |
theory/01-rl-fundamentals.md |
REINFORCE → PG con línea base → clipping de PPO |
theory/02-reward-modeling.md |
Bradley-Terry, reward hacking, curva en U de sobre-optimización |
theory/03-ppo-for-language.md |
Receta de InstructGPT, penalización KL al modelo de referencia |
theory/04-dpo-and-direct-methods.md |
Derivación de DPO; comparación con KTO, IPO, ORPO |
theory/05-constitutional-ai-and-rlaif.md |
Constitutional AI, RLAIF, pasos supervisado + RL de CAI |
lab/00-reward-model-from-preferences.md |
Entrena un modelo de recompensa diminuto sobre 200 preferencias pareadas de correcciones gramaticales |
lab/01-dpo-on-grammar-tutor.md |
Ajuste fino con DPO del tutor gramatical LoRA de la Fase 28 |
lab/02-constitutional-revision-loop.md |
Bucle constitucional de autocrítica → revisión → destilación SFT |
Enlaces cruzados al currículo central¶
- Fase 04 — Cálculo y optimización: el gradiente de política es retropropagación con una pérdida distinta.
- Fase 19 — Dinámica de entrenamiento: la restricción KL es una herramienta de dinámica de entrenamiento.
- Fase 28 — LoRA / QLoRA: el DPO se hace casi siempre sobre adaptadores (coste extra bajo).
- Fase 37 — Seguridad y safety: el alineamiento es una historia de safety; Constitutional AI es lo que Anthropic envía a producción.
Referencias clave¶
- Ouyang et al. 2022 — Training language models to follow instructions with human feedback (InstructGPT).
- Rafailov et al. 2023 — Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO).
- Bai et al. 2022 — Constitutional AI: Harmlessness from AI Feedback (CAI / RLAIF de Anthropic).
- Gao et al. 2022 — Scaling Laws for Reward Model Overoptimization.
- Lambert 2024 — Reinforcement Learning from Human Feedback (survey de preference tuning).
Definition of Done¶
- Los seis archivos de teoría revisados por
math-reviewer. - El RM del Lab 00 alcanza >70% de precisión en una evaluación retenida de 40 pares.
- El modelo DPO del Lab 01 alcanza >55% de tasa de victoria frente al baseline SFT en un test retenido de 50 pares.
- El Lab 02 muestra mejora medible en una evaluación retenida tras un ciclo de revisión-destilación.
-
mkdocs build --strictpasa con este módulo incluido en la navegación.
Lecturas recomendadas¶
Opcional — enriquece pero no es necesario para aprobar la fase.
- 📄 Training Language Models to Follow Instructions (InstructGPT) — Ouyang et al. · 2022. el pipeline de RLHF, de principio a fin.
- 📄 Direct Preference Optimization (DPO) — Rafailov et al. · 2023. alineamiento sin reward model separado ni PPO.
- 📄 Constitutional AI: Harmlessness from AI Feedback — Bai et al. · 2022. RLAIF — feedback de un modelo, no de una multitud.