Skip to content

English · Español

00 — El Panorama de Entrevistas en Laboratorios de IA en 2026

Mapa del loop de entrevistas en laboratorios de IA (AI) en 2026: pantalla telefónica, ML-systems, coding, lectura de paper, design, behavioral. Cada lab del lynx-cortex mapea a uno o más tipos de ronda.

El loop estándar (Anthropic / OpenAI / DeepMind / Google Brain / xAI / Cohere / Mistral)

Un loop de AI-engineer / research-engineer en 2026 dura 5 a 7 horas, típicamente repartido en dos días:

Ronda Duración Qué se puntúa
0. Recruiter screen 30 min Señal del CV, encaje de rol/equipo, expectativas de compensación
1. Phone / video screen 60 min Una pregunta de concepto ML + una pregunta de coding (LeetCode-medium o implementa-una-primitiva)
2. ML systems 60 min Abierta: "diseña un chatbot para 10M DAU", matemáticas de capacidad, modos de fallo
3. Coding (implementación) 60 min Implementa attention / BPE / LoRA / DPO loss en NumPy o PyTorch desde cero
4. Paper / depth 45-60 min Lee un paper reciente (a veces pre-compartido, a veces en frío), discute fortalezas/debilidades
5. Behavioral / values 45 min Anécdotas formato STAR; para Anthropic, espera "cuál es tu visión sobre la seguridad de IA"
6. Hiring manager / bar raiser 30-45 min Calibración, te vende el equipo, saca preocupaciones

Para puestos de research scientist, cambia la ronda 3 por un deep dive de proyecto de investigación (45 minutos presentando tu trabajo previo, 45 minutos de ellos sondeándolo).

Qué filtra realmente cada ronda

Phone screen — competencia baseline

  • No es un filtro duro de astucia; filtra a candidatos que no saben qué es attention.
  • La parte de coding es "¿puedes escribir código que compile?" no "¿puedes hacer golf de esto en 5 líneas?".
  • Modo de fallo: gastar 45 minutos en la mitad de coding y 5 en el concepto. Son de peso igual.

ML systems — ¿puedes razonar bajo información parcial?

  • No te darán los requisitos completos. Debes provocarlos.
  • La habilidad puntuada: matemáticas de capacidad (ley de Little, tokens/s, presupuesto de memoria GPU), enumeración de modos de fallo (OOM, NCCL hang, throttling térmico), disciplina de coste (CpQU — coste por unidad de calidad).
  • Ver theory/02-systems-design-for-llms.md para los 5 prompts canónicos.

Coding — músculo de implementación

  • El "filtro de profundidad". Muchos candidatos conocen attention conceptualmente pero no pueden escribir softmax(Q @ K.T / sqrt(d_k)) @ V desde un archivo en blanco en 20 minutos.
  • Si te dejan usar PyTorch varía. Los phone screens de Anthropic suelen exigir NumPy; los on-sites permiten PyTorch.
  • Ver theory/04-coding-drills.md para los 12 drills básicos.

Paper read — ¿puedes leer como investigador?

  • La habilidad puntuada: en 20 minutos, identificar (a) la claim, (b) el método, © lo que no está testado.
  • Quieren escuchar "la ablation en §5.2 no controla por diferencias de tokenizer", no "el paper es impresionante".
  • Ver theory/03-paper-read-drill.md para el protocolo de 20 minutos en 4 papers canónicos.

Behavioral — gusto, juicio y ownership

  • En Anthropic específicamente: espera "cuéntame de una vez que un modelo se comportó mal e investigaste".
  • STAR es el formato, pero la sustancia es qué tradeoffs hiciste. "Envié X" es media respuesta; "envié X en vez de Y porque Z" es la respuesta completa.
  • Ver theory/05-behavioral-and-storytelling.md para 10 anécdotas pre-escritas desde el viaje de lynx-cortex.

Cómo los labs de lynx-cortex mapean a rondas de entrevista

Artefacto Lab / Fase Ronda de entrevista que prepara
Fase 04 — Calculus & Optimization Phone screen (preguntas de gradiente); ronda de paper (derivación DPO)
Fase 07 — Scalar autograd Ronda de coding (implementa backward)
Fase 08 — Tensor autograd Ronda de coding (broadcasting, bugs de shape)
Fase 11 — Tokenization BPE Ronda de coding (drill 02)
Fase 15 — Attention Ronda de coding (drill 01), ML-systems (matemáticas de coste de attention)
Fase 16 — Positional encodings Ronda de coding (drill 10 RoPE)
Fase 17 — Mini-GPT Ronda de paper (Vaswani 2017)
Fase 19 — Training dynamics Behavioral ("debug duro")
Fase 20 — Evaluation harness ML-systems (eval offline vs online)
Fase 21 — Inference / sampling Ronda de coding (drill 07 top-p)
Fase 22 — KV cache Ronda de coding (drill 04), ML-systems (presupuesto de memoria)
Fase 26 — Quantization ML-systems (coste por token)
Fase 27 — Modern attention Ronda de coding (FlashAttention conceptual)
Fase 28 — LoRA / QLoRA Ronda de coding (drill 05)
Fase 29 — RAG ML-systems prompt 3
Fase 32 — Agents ML-systems prompt 2
Fase 33 — Inference serving ML-systems prompt 1, coding drill 12 (continuous batcher)
Fase 34 — Observability & cost ML-systems (CpQU)
Fase 35 — Distributed ML-systems (NCCL deadlock)
Fase 37 — Security & safety Ronda behavioral de Anthropic
Fase 38 — MLOps ML-systems (multi-tenant fine-tuning)
X3 — RLHF / DPO Coding drill 06 (DPO loss), ronda de paper (Rafailov 2023)

Lo que este módulo no cubre

  • Grindeo de LeetCode. Usa NeetCode 150 por separado si tu rol exige DSA.
  • Negociación de compensación. Usa levels.fyi y un recruiter amigo.
  • Visado / inmigración. Fuera de alcance.

Archivo siguiente

01-whiteboard-ml-questions.md: 25 preguntas, respuestas de 3 párrafos, árboles de follow-up de 3 niveles.