English · Español

Lab 01 — 17 Tarjetas de Paper Pitch¶

17 tarjetas de elevator pitch para los papers que toda entrevista en un laboratorio de IA puede tocar. Formato: título | resumen de 1 frase | 3 números para recordar. Memoriza las tres líneas de cada tarjeta.

Formato¶

Title:        <Autor Año — Nombre del Paper>
Summary:      <Una frase: claim + método.>
3 numbers:    1. <número con unidades y contexto>
              2. <número con unidades y contexto>
              3. <número con unidades y contexto>

Tres números por tarjeta es la regla. Tres es suficiente para anclar el paper; más es inmemorable. Elige números que carguen peso — sobre los que un entrevistador podría preguntar.

Protocolo de drill¶

Escribe cada tarjeta en una ficha física. Lleva la baraja contigo.
Drill: baraja, saca una tarjeta, recita las tres líneas en voz alta en ≤ 30 segundos.
Objetivo: 17 tarjetas en 8 minutos, sin errores.
Re-drillea semanalmente. Añade tarjetas nuevas conforme leas papers nuevos.

Tarjeta 01 — Vaswani 2017, Attention Is All You Need¶

Resumen. Reemplaza el encoder-decoder RNN/CNN con pura attention; introduce multi-head scaled dot-product attention y positional encoding para sequence transduction (machine translation).

3 números. 1. 65M parámetros en el modelo base (comparado con 213M para el mejor modelo NMT previo — lo superaron). 2. 3.5 días en 8 GPUs P100 para entrenar (un orden de magnitud menos que los baselines RNN). 3. 28.4 BLEU en WMT 2014 EN→DE, un +2.0 sobre el SOTA previo.

→ Ver theory/03-paper-read-drill.md Paper 1.

Tarjeta 02 — Devlin 2018, BERT¶

Resumen. Encoder transformer bidireccional pre-entrenado con masked-language-modeling y next-sentence prediction, ajuste fino (fine-tuning) para tareas downstream de NLU; estableció el paradigma pretrain-then-fine-tune.

3 números. 1. 340M parámetros en BERT-Large. 2. 15% tasa de masking de tokens durante el pretraining MLM. 3. +7.7 puntos en GLUE sobre el SOTA previo en el momento del release.

Tarjeta 03 — Radford 2019, Language Models are Unsupervised Multitask Learners (GPT-2)¶

Resumen. Un modelo de lenguaje decoder-only de 1.5B parámetros entrenado en WebText muestra rendimiento zero-shot sorprendente en múltiples tareas de PLN (NLP) sin fine-tuning específico por tarea.

3 números. 1. 1.5B parámetros (la variante más grande; OpenAI inicialmente retuvo este checkpoint citando riesgo de uso indebido). 2. 40 GB de WebText (contenido filtrado de enlaces de Reddit) para pretraining. 3. 8 de 9 benchmarks de modelado de lenguaje establecidos como SOTA zero-shot en el release.

Tarjeta 04 — Brown 2020, Language Models are Few-Shot Learners (GPT-3)¶

Resumen. Un LM denso de 175B parámetros exhibe in-context learning: realiza muchas tareas competitivamente tras solo unos pocos ejemplos en el prompt, sin actualizaciones de pesos.

3 números. 1. 175B parámetros (10x más grande que cualquier LM en su momento). 2. 300B tokens de entrenamiento. 3. ~$4.6M coste de entrenamiento aproximado (estimaciones públicas).

Tarjeta 05 — Raffel 2019, T5¶

Resumen. Re-encuadra todas las tareas de PLN (NLP) como text-to-text; encoder-decoder transformer pre-entrenado en el corpus C4 con un objetivo de denoising, transferido a docenas de tareas downstream mediante formato uniforme.

3 números. 1. 11B parámetros en la variante más grande. 2. 750 GB de texto web limpio en el corpus C4. 3. 40 tareas de PLN unificadas bajo un framework text-to-text.

Tarjeta 06 — Radford 2021, CLIP¶

Resumen. El pretraining contrastivo image-text en 400M pares web produce un encoder de visión con transferencia zero-shot competitiva con ImageNet supervisado en docenas de tareas de clasificación.

3 números. 1. 400M pares image-text (dataset WIT). 2. 76.2% top-1 zero-shot en ImageNet con ViT-L/14, ~ResNet-50 supervisado. 3. 27 datasets para eval de generalización zero-shot.

→ Ver theory/03-paper-read-drill.md Paper 2.

Tarjeta 07 — Dosovitskiy 2020, An Image is Worth 16x16 Words (ViT)¶

Resumen. Aplica un transformer estándar directamente a parches de imagen (16×16, tratados como tokens) e iguala o supera a las CNNs en clasificación de imágenes dada suficiente data de pretraining.

3 números. 1. 16×16 tamaño de parche en imágenes 224×224 → 196 tokens por imagen. 2. 300M imágenes en JFT-300M, el set de pretraining que desbloquea el rendimiento de ViT. 3. +0.5 a +2% sobre baselines ResNet a iso-FLOPs en ImageNet tras pretraining a gran escala.

Tarjeta 08 — Radford 2022, Whisper¶

Resumen. Encoder-decoder transformer entrenado en 680k horas de audio-texto multilingüe etiquetado de la web; realiza ASR y traducción en 99 idiomas con robustez zero-shot.

3 números. 1. 680k horas de audio etiquetado (comparado con las 1k horas de LibriSpeech). 2. 99 idiomas cubiertos. 3. 1.55B parámetros en la variante large.

Tarjeta 09 — Ouyang 2022, InstructGPT¶

Resumen. Ajuste fino de GPT-3 con demostraciones supervisadas + RLHF (reward model entrenado en comparaciones de preferencias humanas, PPO con penalización KL) para seguir instrucciones mejor que el modelo base.

3 números. 1. 1.3B parámetros InstructGPT preferido sobre GPT-3 de 175B parámetros por los etiquetadores en el 85% de los casos. 2. 40 etiquetadores escribieron los datos de demostración y preferencia. 3. Pipeline de 3 etapas: SFT → entrenamiento de RM → PPO RL.

Tarjeta 10 — Hoffmann 2022, Chinchilla¶

Resumen. Para un presupuesto de cómputo fijo, parámetros y tokens de entrenamiento deben escalar aproximadamente igual (N ∝ D); modelos previos (GPT-3, Gopher) estaban dramáticamente sub-entrenados relativo al compute-optimality.

3 números. 1. 70B parámetros entrenados con 1.4T tokens supera a Gopher de 280B con 300B tokens. 2. ~20 tokens por parámetro es compute-optimal. 3. L(N, D) = E + A/N^0.34 + B/D^0.28 ley paramétrica de pérdida ajustada.

→ Ver theory/03-paper-read-drill.md Paper 4.

Tarjeta 11 — Rafailov 2023, Direct Preference Optimization (DPO)¶

Resumen. El óptimo de RLHF regularizado con KL tiene una forma cerrada en el espacio de políticas, así que la optimización de preferencias se reduce a una pérdida de estilo clasificación sobre el LM directamente — sin reward model, sin loop PPO.

3 números. 1. Cero reward models requeridos (vs. RLHF, que requiere uno). 2. β (típicamente 0.1-0.5) controla la fuerza de la restricción KL al SFT de referencia. 3. Win rates comparables o mejores que RLHF en resumen TL;DR y Anthropic-HH a una fracción del coste de ingeniería.

→ Ver theory/03-paper-read-drill.md Paper 3.

Tarjeta 12 — Hu 2021, LoRA¶

Resumen. Congela los pesos pre-entrenados e inyecta descomposición low-rank entrenable B A (rank r << min(d, k)) en cada capa lineal; ajusta finamente LMs grandes con 30-100x menos parámetros con pérdida de calidad negligible.

3 números. 1. r = 8 o 16 es el rank típico para ajuste fino de LLMs. 2. 30-100x menos parámetros entrenables que ajuste fino completo. 3. 0 overhead de latencia en inferencia porque B A se puede fusionar en W.

Tarjeta 13 — Dao 2022, FlashAttention¶

Resumen. Tilea el cómputo de attention para evitar materializar la matriz n × n de attention en HBM; exacto (no aproximado); recomputa en backward para ahorrar memoria.

3 números. 1. 2-4x aceleración de entrenamiento en transformers en longitudes de contexto típicas. 2. O(n) memoria en vez de O(n²). 3. 64KB SRAM por SM (A100) — la restricción del tile-size.

Tarjeta 14 — Kwon 2023, Efficient Memory Management for LLM Serving with PagedAttention (vLLM)¶

Resumen. Gestiona el KV cache como memoria virtual con páginas de tamaño fijo, compartiendo páginas entre requests con prefijos comunes y reduciendo fragmentación — habilitando throughput de batch mucho mayor en serving de producción.

3 números. 1. 2-4x mejora de throughput sobre Hugging Face TGI / FasterTransformer a iso-latencia. 2. 16 tokens tamaño típico de bloque (página). 3. <4% fragmentación interna vs. 60-80% en gestión naive de KV cache.

Tarjeta 15 — Jiang 2023, Mistral 7B¶

Resumen. Un LM de 7B parámetros que supera a Llama 2 13B a iso-evals usando sliding-window attention, grouped-query attention y elecciones cuidadosas de calidad de data.

3 números. 1. 7.3B parámetros. 2. 4096 tokens ventana deslizante para attention (contexto efectivo >> 4096 vía ventanas apiladas). 3. 8 KV heads bajo GQA (vs. 32 query heads).

Tarjeta 16 — Touvron 2023, Llama 2¶

Resumen. Familia de LMs de pesos abiertos (7B / 13B / 70B); entrenados con 2T tokens; variantes chat con ajuste fino mediante SFT + RLHF; estableció el baseline de producción de pesos abiertos hasta 2024.

3 números. 1. 70B parámetros en la variante más grande. 2. 2T tokens de entrenamiento (~30 tokens por param — más allá del Chinchilla optimal, optimizado para inferencia). 3. GQA-8 (grupos de 8 query heads compartiendo KV) en la variante 70B.

Tarjeta 17 — Dubey 2024, Llama 3¶

Resumen. Familia de LMs de pesos abiertos empujada más allá del Chinchilla scaling — entrenada con 15T tokens para optimizar economía de inferencia sobre training-compute optimality; introduce la variante densa 405B rivalizando con modelos frontera cerrados.

3 números. 1. 15T tokens de entrenamiento (vs. ~1.4T Chinchilla-optimal para 70B parámetros). 2. 405B parámetros en la variante flagship. 3. 128k vocabulario del tokenizer (vs. 32k de Llama 2), reduciendo tokens-por-carácter en no-inglés.

Cómo drillear¶

Ronda 1 (semana 1). Tarjeta a tarjeta; lee cada una en voz alta 3x. Luego cierra la baraja y recita de memoria.
Ronda 2 (semana 2). Baraja. Saca, recita, verifica. Objetivo: 17 tarjetas en ≤ 10 minutos.
Ronda 3 (semana 3). Añade el drill "expandir": para cada tarjeta, tras las 3 líneas, añade 30 segundos de profundidad sin guión ("lo de CLIP es que la escala, no el objetivo contrastivo, fue la innovación real"). Esta es la forma real de la entrevista.
Mantenimiento. Una vez por semana de ahí en adelante. Añade 1-2 tarjetas nuevas por mes desde tu lectura.

Personalización¶

Añade tarjetas específicas por empresa. Para una entrevista en Anthropic, añade Bai 2022 (Constitutional AI), el paper Sleeper Agents de Anthropic, y Scaling Monosemanticity.
Añade tarjetas específicas de dominio. Para un puesto en robótica, añade RT-2, OpenVLA. Para multimodal, añade Flamingo, BLIP-2, LLaVA.
Descarta tarjetas una vez dominadas y añade nuevas; la baraja activa debe estar en el borde de tu competencia.

Esto completa el Módulo X5. Vuelve a ../README.md para el mapa del módulo, o a ROADMAP.md (en la raíz del repo) para el currículo más amplio.