Skip to content

English · Español

Módulo de extensión X3 — RLHF, DPO y RLAIF

Requiere: 05 — Probabilidad y teoría de la información · 19 — Dinámica de entrenamiento y debugging · 28 — Fine-tuning, LoRA, QLoRA Enseña: rlhf · reward-modeling · ppo · dpo · constitutional-ai Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo

🇪🇸 Módulo de extensión sobre alineamiento por preferencias: RLHF (PPO), DPO (método directo) y RLAIF / Constitutional AI. Cierra la brecha "RL/RLHF beyond conceptual coverage" del HIRING_PATH.md.

Estado

  • Track: Extensión (paralelo al currículo central de 40 fases)
  • Autorización: Addendum A15 (tracks de extensión autorizados)
  • Prerrequisitos: Fase 04 (cálculo/optimización), Fase 17 (mini-GPT), Fase 19 (dinámica de entrenamiento), Fase 28 (LoRA/QLoRA)
  • Salvaguarda de alcance: Todos los labs usan el alcance del tutor gramatical §A13 (20 verbos, 5 tiempos, 3 personas). Sin expansión de alcance.
  • Límite de hardware: Solo CPU (i5-8250U); todos los labs corren de extremo a extremo sin GPU.

Por qué existe este módulo

El currículo central cubre preentrenamiento (Fase 17-18), evaluación (Fase 20) e inferencia (Fase 21). No cubre el bucle de alineamiento posterior al entrenamiento que convierte un modelo de lenguaje base en un asistente — esto es lo que hace cada lab de producción (OpenAI, Anthropic, DeepMind, Meta) tras el SFT, y lo que una entrevista de estilo Anthropic explorará en profundidad.

Este módulo rellena ese hueco con:

  1. Teoría — la matemática de gradientes de política, modelado de recompensa, PPO, DPO y Constitutional AI.
  2. Labs — tres labs prácticos sobre el tutor gramatical §A13 que ejercitan cada técnica de extremo a extremo en CPU.

Mapa del módulo

Archivo Tema
theory/00-motivation.md Por qué alinear con preferencias tras el SFT; la brecha de imitación; el marco HHH
theory/01-rl-fundamentals.md REINFORCE → PG con línea base → clipping de PPO
theory/02-reward-modeling.md Bradley-Terry, reward hacking, curva en U de sobre-optimización
theory/03-ppo-for-language.md Receta de InstructGPT, penalización KL al modelo de referencia
theory/04-dpo-and-direct-methods.md Derivación de DPO; comparación con KTO, IPO, ORPO
theory/05-constitutional-ai-and-rlaif.md Constitutional AI, RLAIF, pasos supervisado + RL de CAI
lab/00-reward-model-from-preferences.md Entrena un modelo de recompensa diminuto sobre 200 preferencias pareadas de correcciones gramaticales
lab/01-dpo-on-grammar-tutor.md Ajuste fino con DPO del tutor gramatical LoRA de la Fase 28
lab/02-constitutional-revision-loop.md Bucle constitucional de autocrítica → revisión → destilación SFT

Enlaces cruzados al currículo central

Referencias clave

  • Ouyang et al. 2022 — Training language models to follow instructions with human feedback (InstructGPT).
  • Rafailov et al. 2023 — Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO).
  • Bai et al. 2022 — Constitutional AI: Harmlessness from AI Feedback (CAI / RLAIF de Anthropic).
  • Gao et al. 2022 — Scaling Laws for Reward Model Overoptimization.
  • Lambert 2024 — Reinforcement Learning from Human Feedback (survey de preference tuning).

Definition of Done

  • Los seis archivos de teoría revisados por math-reviewer.
  • El RM del Lab 00 alcanza >70% de precisión en una evaluación retenida de 40 pares.
  • El modelo DPO del Lab 01 alcanza >55% de tasa de victoria frente al baseline SFT en un test retenido de 50 pares.
  • El Lab 02 muestra mejora medible en una evaluación retenida tras un ciclo de revisión-destilación.
  • mkdocs build --strict pasa con este módulo incluido en la navegación.

Lecturas recomendadas

Opcional — enriquece pero no es necesario para aprobar la fase.