English · Español
03 — Drill de Paper-Read: 20 Minutos por Paper¶
Protocolo de lectura rápida de papers (20 min) aplicado a Attention (Vaswani 2017), CLIP (Radford 2021), DPO (Rafailov 2023), Chinchilla (Hoffmann 2022). Para cada uno: qué leer, qué saltar, las 3 cosas que tienes que recordar.
El protocolo de 20 minutos¶
Una "ronda de paper" en una entrevista de laboratorio de IA te da 20-30 minutos con un paper (a veces pre-compartido, a veces en frío) y luego 20-30 minutos de discusión. No vas a terminar el paper. Está bien. El protocolo:
- Minutos 0-2 — Título, abstract, conclusión. Obtén la claim. Escríbela en una frase en el margen.
- Minutos 2-5 — Figuras y tablas. Aquí vive el resultado. Lee cada caption. Marca "la figura titular" y "la tabla sorprendente".
- Minutos 5-12 — Método. La sección central. Lee por exactamente qué es novedoso. Salta el background. Re-deriva la ecuación central en papel.
- Minutos 12-16 — Experimentos. Lee solo el setup que aterriza el número titular. Salta la lista lavandería de benchmarks.
- Minutos 16-18 — Ablations. Aquí los papers débiles se desmoronan. Busca lo que falta.
- Minutos 18-20 — Limitaciones / related work. Anota lo que los propios autores admiten es débil. Este es el sitio más fácil para plantear una pregunta.
Entras a la discusión con: la claim de una frase, la figura titular, la ecuación central, la ablation más importante, y una debilidad.
Qué puntúan los entrevistadores¶
- ¿Identificaste la claim correctamente? (Muchos candidatos sobre-leen.)
- ¿Puedes explicar el método central sin jerga?
- ¿Notaste lo que no está en el paper? (Ablation faltante, baseline sesgado, sin estudio de scaling.)
- ¿Tienes una opinión? "Creo que el método funciona pero la evaluación lo sobreestima por X."
Paper 1 — Vaswani et al. 2017, Attention Is All You Need¶
Claim de una frase¶
Una arquitectura encoder-decoder basada puramente en attention iguala o excede la traducción automática basada en RNN siendo mucho más paralelizable para entrenar.
Qué leer (en orden de prioridad)¶
- §1, §2 (intro + background) — escanea, 2 min.
- §3 (arquitectura del modelo) — lee cuidadosamente, 8 min. Específicamente §3.2 (attention) y §3.3 (FFN).
- §4 (por qué self-attention) — lee; este es el argumento de paralelización + path-length.
- Tabla 2 (BLEU + coste de entrenamiento en WMT) — el resultado titular.
- Tabla 3 (ablations en número de heads, d_k, dropout) — la ablation más citada.
Qué saltar¶
- §5 (detalles de entrenamiento, optimizer, regularización) — solo escanea. Ya conoces Adam.
- §6.1 (resultados de traducción automática en detalle) — Tabla 2 lo cubre.
- §6.2 (parsing de constituyentes en inglés) — periférico.
Ecuación central¶
Attention(Q, K, V) = softmax(Q K^T / sqrt(d_k)) V
Deberías poder derivar sqrt(d_k) desde el escalado de varianza (ver whiteboard Q1).
Las 3 cosas que tienes que recordar¶
- Self-attention tiene constant-path-length entre cualesquiera dos posiciones, a diferencia de RNNs (lineal) o CNNs (log). Este es el argumento teórico dominante.
- Multi-head attention es
hops de attention paralelas en slices del embedding, luego concatenadas. No "h capas independientes". - El coste es
O(n^2 d)que es la razón entera por la cual existen la Fase 22 (KV cache), Fase 27 (FlashAttention), y la carrera armamentista de contexto largo.
Probables preguntas de follow-up¶
- "Explícame multi-head attention." (Whiteboard Q1.)
- "Por qué pre-LN reemplazó a post-LN más tarde." (Q2, Q12.)
- "¿Qué falta en este paper?" → "No hay estudio de scaling; sin análisis de especialización de attention heads (vino después — Voita 2019, Clark 2019); sin investigación de alternativas de positional encoding (vino después — RoPE, ALiBi)."
Pit-of-failure¶
Decir "este paper inventó transformers" sin poder derivar el scaled dot-product. Señales: nunca lo implementaste.
Paper 2 — Radford et al. 2021, Learning Transferable Visual Models From Natural Language Supervision (CLIP)¶
Claim de una frase¶
El pretraining contrastivo de encoders image–text emparejados en 400M pares web produce un modelo de visión con rendimiento zero-shot competitivo con ImageNet supervisado, generalizando a docenas de tareas de clasificación sin ajuste fino por tarea.
Qué leer¶
- §1 (intro) — el encuadre importa: "supervisión por lenguaje natural" vs "set fijo de etiquetas".
- §2.1, §2.2 — dataset (WIT-400M) y objetivo de entrenamiento.
- §2.3 — la elección arquitectónica (ResNet vs ViT image encoder; el text encoder es un transformer).
- §3.1, §3.2 — metodología de transferencia zero-shot e ingeniería de prompts.
- Figura 4 (zero-shot vs linear probe supervisado en ImageNet) — la titular.
- Figura 5 (zero-shot en 27 datasets) — generalización.
- §3.3 — robustez / distribution shift.
Qué saltar¶
- §4 (comparación a métodos existentes) — solo escanea.
- §5 (data y limitaciones) en la primera pasada; revisita si te preguntan.
- El apéndice de 30 páginas a menos que te pregunten específicamente por un dataset.
Ecuación central¶
La pérdida contrastiva InfoNCE sobre un batch de N pares image-text:
Dos encoders (I, T), una temperatura compartida tau, softmax de tamaño-batch-N sobre candidatos de texto para cada imagen (y simétricamente para candidatos de imagen para cada texto).
Las 3 cosas que tienes que recordar¶
- 400M pares image-text scrapeados de la web — la escala fue la clave, no la arquitectura.
- Zero-shot vía templating de prompts: para ImageNet, usa prompts como
"a photo of a {class}"y elige la clase cuyo embedding de texto esté más cerca del embedding de imagen. - Linear-probe ImageNet accuracy de CLIP ViT-L/14 iguala a ResNet-50 supervisado entrenado en labels — la prueba de que la supervisión por lenguaje natural es competitiva con la supervisión por clasificación.
Follow-ups probables¶
- "¿Cómo adaptarías CLIP para retrieval?" → usa embeddings de imagen y texto como un espacio compartido; búsqueda de vecino más cercano.
- "¿Por qué falla CLIP en conteo / tareas fine-grained?" → el objetivo contrastivo recompensa matching grueso; el conteo requiere estructura simbólica que no emerge del contrastivo.
- "¿Cómo se compara CLIP con ALIGN / SigLIP / EVA-CLIP?" → ALIGN (Google) es contemporáneo; SigLIP (2023) reemplaza el softmax con sigmoid para mejor scaling; EVA-CLIP escala el encoder de visión.
Pit-of-failure¶
Decir "CLIP es contrastivo" sin poder escribir InfoNCE. Señales: leíste el abstract.
Paper 3 — Rafailov et al. 2023, Direct Preference Optimization (DPO)¶
Claim de una frase¶
La política óptima de RLHF regularizado con KL tiene una forma cerrada en términos de una función de reward; esto permite que la reward se exprese en términos de la propia política, eliminando la necesidad de entrenar un reward model explícito y un loop RL — la optimización de preferencias se reduce a una simple pérdida de clasificación sobre el LM directamente.
Qué leer¶
- §3 (Direct Preference Optimization) — la derivación. Lee cada línea.
- §4 (análisis teórico) — la interpretación del gradiente; una figura mostrando los pesos implícitos de reward.
- §6 (experimentos) — sentimiento IMDB, resumen TL;DR, diálogo.
- Figura 2 (sentimiento) — rendimiento vs baseline RLHF.
- §7 (discusión) y §8 (limitaciones) — nota la honestidad sobre sensibilidad al ruido de preferencias.
Qué saltar en la primera pasada¶
- §2 (background) si ya conoces PPO RLHF.
- La mayor parte de §5 (letra pequeña del análisis teórico).
- Las muestras cualitativas de diálogo.
Derivación central (debes poder hacer esto en una pizarra)¶
Punto de partida — el objetivo RLHF restringido por KL:
El óptimo tiene una forma cerrada (Lagrangiano + cálculo variacional):
Reordenando para r:
La verosimilitud de preferencia Bradley-Terry P(y_w > y_l | x) = sigmoid(r(x, y_w) - r(x, y_l)) — sustituye y el log Z(x) se cancela:
L_DPO = - log sigmoid( beta * log(pi(y_w | x) / pi_ref(y_w | x)) - beta * log(pi(y_l | x) / pi_ref(y_l | x)) )
Esta es la pérdida DPO. Sin reward model, sin PPO.
Las 3 cosas que tienes que recordar¶
- La cancelación de
log Z(x)es la magia — depende solo del prompt, no de la respuesta, así que desaparece de la comparación por pares. - DPO requiere una política de referencia
pi_ref(típicamente el modelo SFT) para evaluar. La referencia está congelada. - Beta controla la fuerza de la restricción KL a
pi_ref.betamás pequeña → más drift desde SFT → más riesgo de reward-hacking.
Follow-ups probables¶
- "Deriva la pérdida DPO desde cero." (Arriba.)
- "¿Cuándo va peor DPO que PPO?" → en preferencias ruidosas (el reward model promedia ruido; DPO no); en tareas donde la reward es fácilmente verificable (matemáticas, código) PPO con un reward verificador vence a DPO.
- "¿Qué es IPO / KTO / ORPO?" → IPO arregla la tendencia de DPO a empujar
pi/pi_refal infinito; KTO usa labels unilaterales (bueno/malo); ORPO combina pérdida SFT y de preferencia sin referencia. Ver X3.
Pit-of-failure¶
Saber "DPO es directo" sin poder derivar la pérdida. Señales: leíste el abstract. No pasarás una entrevista de Anthropic.
Paper 4 — Hoffmann et al. 2022, Training Compute-Optimal Large Language Models (Chinchilla)¶
Claim de una frase¶
Para un presupuesto de cómputo fijo, los modelos están dramáticamente sub-entrenados: los parámetros y tokens de entrenamiento deben escalar igualmente (N ∝ D, ambos ∝ sqrt(C)), no parámetros desproporcionadamente como en trabajo previo (Kaplan 2020).
Qué leer¶
- §1 (intro) — el encuadre: "dado cómputo C, ¿qué (N, D) maximiza el rendimiento?"
- §3 (aproximaciones) — tres metodologías independientes, todas convergen.
- Aproximación 1: entrena con N fijo, varía D — encuentra D óptimo por N.
- Aproximación 2: fija ratios
D / N, entrena múltiples tamaños de modelo — encuentra el ratio óptimo. - Aproximación 3: ajusta una función paramétrica de pérdida
L(N, D) = E + A/N^alpha + B/D^beta. - Figura 3 (las curvas iso-flop) — la figura titular del paper.
- §4 (Chinchilla) — el modelo 70B entrenado en 1.4T tokens. Vence a Gopher (280B, 300B tokens) a ¼ del coste de inferencia.
- Tabla 4 (benchmarks downstream).
Qué saltar¶
- Las largas tablas de benchmarks en §4.
- La mayor parte del apéndice.
Ecuación central¶
con constantes ajustadas E ≈ 1.69, A ≈ 406.4, B ≈ 410.7, alpha ≈ 0.34, beta ≈ 0.28.
La conclusión (numérica): D ≈ 20 × N es el conteo de tokens compute-optimal por parámetro.
Las 3 cosas que tienes que recordar¶
- Tokens por parámetro ≈ 20 en compute-optimal. (Llama 3 fue mucho más lejos — 15T tokens para 8B y 70B — probando que puedes seguir entrenando pasado el punto compute-optimal si el coste de inferencia domina el coste de entrenamiento.)
- Gopher (280B params, 300B tokens) estaba salvajemente sub-entrenado. Chinchilla (70B params, 1.4T tokens) lo superó a 4x menor coste de inferencia.
- La predicción de Kaplan 2020 estaba mal — extrapolaron de modelos demasiado pequeños y sobre-predijeron la importancia del conteo de parámetros.
Follow-ups probables¶
- "¿Cuál es la diferencia entre Kaplan scaling y Chinchilla scaling?" → Kaplan dijo
Ncrece más rápido queDcon cómputo; Chinchilla dijo igual. - "¿Por qué Llama 3 entrena mucho más allá de compute-optimal?" → Chinchilla optimiza coste de entrenamiento. Si amortizas un modelo sobre miles de millones de inferencias, sobre-entrenar un modelo pequeño es más barato por consulta que sub-entrenar uno grande.
- "¿Cómo diseñarías un estudio de scaling para una arquitectura nueva?" → ajusta
L(N, D)a través de al menos 4 N's y 4 D's; revisa residuales; reportaalpha, beta.
Pit-of-failure¶
Citar "20 tokens por parámetro" como una ley universal sin entender que es training-compute optimal, no inference-cost optimal. Señales: no leíste más allá del abstract.
Cómo drillear este archivo¶
- Elige uno de los cuatro papers. Pon un temporizador de 20 minutos.
- Sigue el protocolo. Escribe la claim de una frase, la ecuación central, y una debilidad en una tarjeta.
- Pide a un amigo (o a este archivo) que dispare preguntas de follow-up. Tienes 60 segundos por follow-up.
- Repite con otro paper cada 2 días.
Tras los 4 papers: añade un paper más de tu historial laboral por semana. Mantén una carpeta de paper-cards (ver ../lab/01-paper-pitch-cards.md).
→ Siguiente: 04-coding-drills.md