English · Español
06 — Prep específica por empresa: señales por laboratorio
Lo que cada laboratorio prioriza en entrevistas: Anthropic (alineamiento, IA constitucional, "explica por qué los modelos fallan"); OpenAI (escala + juicio de producto); DeepMind (profundidad de investigación + matemáticas); Google Brain (papers + producción); xAI (pragmatismo de ingeniería); Cohere / Mistral (multilingüe + retrieval).
Cómo leer este archivo
Cada sección tiene tres bloques:
1. Qué valoran — cultura y prioridades de investigación, destiladas de declaraciones públicas, papers y entradas de blog de ingeniería (2024-2026).
2. Qué esperar en el loop — las preguntas / formatos específicos que sus entrevistadores tienden a preferir.
3. La prep en lynx-cortex — qué fase / módulo / drill da más palanca para esa empresa.
Son heurísticas a partir de información pública, no contratos. Calibra con el brief del recruiter.
Anthropic
Qué valoran
- Alineamiento primero. La producción de research publicada está dominada por trabajo de alineamiento: Constitutional AI, RLHF, supervisión escalable, interpretabilidad (circuits, sparse autoencoders), red-teaming, razonamiento sobre el comportamiento del modelo. Si no tienes una opinión sobre alineamiento, lo vas a pasar mal.
- Incertidumbre honesta. El estilo de escritura de Anthropic es deliberadamente medido — humildad epistémica al estilo "todavía no lo sabemos". Engineers / researchers que proyectan confianza falsa se filtran.
- Razonamiento cuidadoso y de contexto largo. Sus releases de modelos (Claude 3.5, Claude 4, Claude Opus) enfatizan calidad de razonamiento por encima de perseguir benchmarks. Los entrevistadores se fijan en tu proceso de razonamiento, no sólo en la respuesta.
- Safety como ingeniería, no teatro. Esperan que pienses los modos de fallo de forma concreta — no "la IA podría ser insegura" sino "esta clase específica de prompt causa este fallo específico".
Qué esperar en el loop
- Phone screen. Coding estándar (attention, BPE o similar) + un concepto de ML.
- Ronda de ML systems. A menudo incluye una restricción tipo "diseña un sistema que no produzca contenido dañino por accidente" — capacidad más safety.
- Ronda de paper. Probablemente un paper reciente de Anthropic (CAI, Constitutional Classifiers, Influence Functions, Scaling Monosemanticity, Sleeper Agents). Léelos.
- Ronda behavioral — la distintiva de Anthropic. Espera preguntas como:
- "Cuéntame de una vez que un modelo se comportó mal. ¿Qué investigaste?"
- "¿Cuál es tu visión sobre AI safety?"
- "¿Cuándo te has equivocado en algo importante?"
- "Explica por qué los modelos de lenguaje alucinan."
- Bar raiser / hiring manager. A menudo testea calibración: "¿Cómo de seguro estás de esta respuesta? ¿Qué te haría cambiar de opinión?"
Temas concretos sobre los que tener fluidez
| Tema |
Fuente |
| Constitutional AI |
Bai et al. 2022 |
| RLHF / RLAIF |
Christiano 2017, Lee 2023 |
| Supervisión escalable (debate, weak-to-strong) |
Bowman 2022, Burns 2023 |
| Interpretabilidad mecanística |
Olah / Conmy / Bricken (circuits, SAEs) |
| Sleeper Agents / alineamiento engañoso |
Hubinger 2024 |
| Sycophancy y reward hacking |
Sharma 2023 |
| Model Spec / políticas de comportamiento |
Comportamientos publicados de Anthropic |
La prep en lynx-cortex
- El módulo X3 RLHF/DPO es la prep de mayor palanca. Ten que poder derivar DPO desde RLHF en pizarra (ver whiteboard Q14, drill 06).
- Fase 37 (Security & Safety) + X3 theory/05 (Constitutional AI) para la ronda behavioral.
- Anécdota behavioral 8 ("model behaved badly") es la historia de mayor palanca.
- Whiteboard Q24 (Constitutional AI) — poder explicar la distinción SL-CAI / RL-CAI.
OpenAI
Qué valoran
- Escala y velocidad de ingeniería. OpenAI envía rápido y a escala; se espera que los engineers sean product-savvy además de técnicamente profundos.
- Juicio de producto. "¿Qué deberíamos enviar?" es una pregunta real de entrevista. Quieren builders que piensen en valor de usuario, no sólo en código elegante.
- Intuición práctica de scaling laws. Compute, datos, presupuestos de parámetros, economía de inferencia. Inventaron el predecesor de Chinchilla (Kaplan 2020) y operan en la frontera del inference scaling.
- Menos público en alineamiento, más público en capacidades que Anthropic. Su mix de research público pesa más en capacidades y producto (GPT-4 system card, o1 reasoning, Sora, Realtime API).
Qué esperar en el loop
- Phone screen. Cargado de coding. Implementa algo. La velocidad cuenta.
- Ronda de ML systems. A menudo "diseña un servicio de inferencia a nuestra escala" — la capacity math del prompt 1 de
02-systems-design-for-llms.md es el centro de la diana.
- Ronda de coding. Implementa attention / sampling / una primitiva en PyTorch. La velocidad se evalúa.
- Ronda de producto / juicio. "Si fueras la PM de ChatGPT, ¿qué priorizarías?" — quieren ver opiniones respaldadas por datos.
- Ronda de research / paper. Puede preguntar por scaling laws, mixture-of-experts, entrenamiento multimodal.
Temas concretos
| Tema |
Fuente |
| Scaling laws |
Kaplan 2020, Hoffmann 2022, update Hoffmann 2024 |
| RLHF (InstructGPT) |
Ouyang 2022 |
| Mixture of experts |
Switch Transformer, GShard, arquitectura rumoreada de GPT-4 |
| Multimodal |
GPT-4V system card, Sora technical report |
| Razonamiento (o1, o3) |
OpenAI o1 / o3 system cards |
| Inferencia / batching |
Continuous batching, speculative decoding |
La prep en lynx-cortex
- Fase 33 (inference serving) + drill 12 (continuous batcher) para la ronda de systems.
- Fase 38 (MLOps) para respuestas con disciplina de coste (encuadre CpQU).
- Paper-pitch cards 4 (GPT-3), 10 (Chinchilla), 13 (InstructGPT) memorizadas.
- Ten una opinión de producto: elige una feature de un producto de OpenAI y argumenta por qué funciona o no.
Google DeepMind
Qué valoran
- Profundidad de research. DeepMind tiene la cultura de publicación de research más fuerte de cualquier laboratorio grande. Incluso en roles de engineering se espera que leas papers con fluidez.
- Matemáticas. RL, teoría, optimización, teoría de la información. El listón es el más alto en fluidez matemática entre los laboratorios.
- Problemas de horizonte largo. AlphaFold, AlphaProof, AlphaGeometry — DeepMind persigue objetivos científicos duros y de largo recorrido.
- Rigor de producción. Ahora fusionado con Google Brain — la escala de producción también es parte del listón.
Qué esperar en el loop
- Phone screen. Coding + discusión corta de un paper de research.
- Ronda de research (para roles RS, RE). Presenta tu trabajo previo; espera sondeo profundo en metodología, ablations y "qué harías diferente".
- Ronda de math / teoría. Optimización, teoría de la información, fundamentos de RL. Prepárate para derivar policy gradient en pizarra.
- Ronda de coding. Estándar.
- Ronda de paper. Probablemente un paper de DeepMind — Chinchilla, Flamingo, Gemini, Gato, AlphaFold, AlphaProof, Gemma.
Temas concretos
| Tema |
Fuente |
| Chinchilla scaling |
Hoffmann 2022 |
| Fundamentos de RL |
Sutton & Barto; PPO; SAC; DQN |
| Distributed training |
Megatron, JAX/Flax, DeepSpeed |
| Linaje AlphaGo |
Silver 2016, AlphaZero, MuZero |
| Arquitectura de Gemini |
Gemini technical report |
La prep en lynx-cortex
- Fase 04 (cálculo y optimización) es la de mayor palanca. Deriva todo.
- Fase 19 (training dynamics) — DeepMind se preocupa por la estabilidad de entrenamiento.
- Módulo X3 — fundamentos de RL (theory/01).
- Paper-pitch card 12 (Chinchilla) memorizada; poder derivar el ajuste de la scaling law.
Google Brain (dentro de Google DeepMind)
Qué valoran
- Prolíficos en papers — históricamente el equipo único que más publica en IA.
- Escala de producción — envían a Google Search, Workspace, Pixel.
- Eclécticos — cubren visión, NLP, robótica, IA en salud, hardware (TPU). Trae tu especialidad.
- Tras 2023, fusionados organizativamente con DeepMind; algunas señales solapan.
Qué esperar en el loop
- Similar a DeepMind pero con más énfasis en infraestructura de producción (TPU, JAX, GShard).
- Más probable que DeepMind a preguntar sobre MLOps, serving multi-tenant, tuning de latencia.
Temas concretos
| Tema |
Fuente |
| Transformer (original) |
Vaswani 2017 |
| BERT / T5 / PaLM |
Devlin 2018, Raffel 2019, Chowdhery 2022 |
| Mixture of experts |
Shazeer 2017, Switch Transformer |
| Pathways / JAX |
Pathways paper, JAX docs |
| Arquitectura TPU |
Papers de TPU, submissions de MLPerf |
La prep en lynx-cortex
- Igual que DeepMind, más Fase 33 (inference serving) y Fase 35 (distributed).
- Paper-pitch card 1 (Attention) memorizada.
xAI
Qué valoran
- Pragmatismo de ingeniería. Menos prolíficos en papers que DeepMind, más enfocados en entrenar y desplegar a escala rápido.
- Sentido de hardware. Grok se entrenó en el clúster de Memphis (Colossus, 100k+ H100s). Quieren engineers que entiendan networking de GPU, NCCL, RDMA.
- Velocidad de iteración. xAI envió Grok, Grok-1.5, Grok-2, Grok-3 rápido. Recompensan a quien envía.
- Alineamiento pragmático. Menos enfocado en alineamiento teórico que Anthropic; más "enviamos un producto, aquí están los guardarraíles".
Qué esperar en el loop
- Phone screen. Cargado de coding.
- Ronda de systems. Probablemente "cómo entrenarías un modelo de frontera en N GPUs" — capacity math, estrategias de distributed (FSDP, ZeRO, tensor / pipeline / sequence parallelism), gestión de fallos.
- Ronda de coding. Implementación bajo presión de tiempo.
- Ronda de cultura. Menos STAR, más "cuéntanos qué te emociona de Grok".
Temas concretos
| Tema |
Fuente |
| Distributed training |
Megatron, FSDP, ZeRO, DeepSpeed |
| NCCL / RDMA / Infiniband |
NVIDIA networking docs |
| FlashAttention |
Dao 2022, FA-2, FA-3 |
| Arquitecturas estilo Llama |
Llama 2, Llama 3 technical reports |
| System cards de Grok |
Docs de modelo publicados por xAI |
La prep en lynx-cortex
- Fase 35 (distributed) es la de mayor palanca.
- Fase 23 + 24 (GPU + CUDA / Triton) — poder esbozar un kernel de Triton.
- Drill 03 (gradient checkpointing) y drill 12 (continuous batcher).
Cohere
Qué valoran
- Enterprise multilingüe. El posicionamiento de Cohere es API-first, orientado a negocio, fuerte en multilingüe.
- Excelencia en retrieval. Sus modelos Embed y Rerank son top en muchos casos de uso de RAG en producción.
- Práctico / desplegable. Menos "carrera de modelos de frontera", más "haz que el retrieval en producción funcione".
Qué esperar en el loop
- Fuerte énfasis en systems design de RAG / retrieval.
- Preguntas de tokenización y evaluación multilingüe.
- Integración enterprise — authn/authz, multi-tenancy, residencia de datos.
Temas concretos
| Tema |
Fuente |
| Dense retrieval |
DPR, BGE, E5, Cohere Embed v3 |
| Reranking |
Cross-encoder, Cohere Rerank |
| Hybrid retrieval |
BM25 + dense fusion |
| Tokenización multilingüe |
XLM-R, Aya |
| Retrieval de contexto largo |
Recursive retrieval, hierarchical RAG |
La prep en lynx-cortex
- Fase 29 (RAG) es la de mayor palanca.
- Fase 11 (tokenización) con atención a ratios multilingües.
- Whiteboard Q19 (RAG) y Q20 (vocab) memorizadas.
Mistral
Qué valoran
- Pragmatismo open-weight. Mistral ha enviado open weights fuertes (Mistral 7B, Mixtral, Mistral Large). Mezcla cultura de research francesa con intensidad de startup europea.
- Arquitecturas eficientes. Sliding-window attention, mixture of experts, grouped-query attention. La reputación de Mistral es "decisiones inteligentes de arquitectura, no sólo más grande".
- Multilingüe. Especialmente lenguas europeas.
Qué esperar en el loop
- Fuerte foco en decisiones de arquitectura y ablations.
- "Por qué GQA vs MHA vs MQA" es una pregunta típica.
- Fluidez en el ecosistema open-weight (Hugging Face, llama.cpp, vLLM).
Temas concretos
| Tema |
Fuente |
| Sliding-window attention |
Mistral 7B paper |
| Mixture of experts |
Mixtral paper |
| Grouped-query attention |
Ainslie 2023 |
| Mistral Large |
Mistral technical reports |
| Tooling open-weight |
Hugging Face, vLLM, llama.cpp |
La prep en lynx-cortex
- Fase 27 (attention moderno) para sliding-window y FlashAttention.
- Fase 36 (arquitecturas de frontera) para MoE.
- Paper-pitch card 15 (Mistral 7B) memorizada.
Matriz cross-empresa de referencia rápida
| Tema |
Anthropic |
OpenAI |
DeepMind |
Brain |
xAI |
Cohere |
Mistral |
| Profundidad de alineamiento |
★★★ |
★★ |
★★ |
★★ |
★ |
★ |
★ |
| Profundidad matemática |
★★ |
★★ |
★★★ |
★★ |
★★ |
★★ |
★★ |
| Distributed training |
★★ |
★★★ |
★★★ |
★★★ |
★★★ |
★ |
★★ |
| Escala de producción |
★★ |
★★★ |
★★ |
★★★ |
★★★ |
★★★ |
★★ |
| Retrieval |
★ |
★ |
★ |
★ |
★ |
★★★ |
★ |
| Open-weights / ecosistema |
★ |
★ |
★ |
★★ |
★ |
★ |
★★★ |
| Constitutional AI / Safety |
★★★ |
★★ |
★★ |
★★ |
★ |
★ |
★ |
Una nota sobre el tono
Cada laboratorio tiene un tono que debes igualar. Lee 3-5 de sus blog posts publicados antes de la entrevista. Anthropic: medido y consciente de la incertidumbre. OpenAI: confiado y orientado a producto. DeepMind: académico. xAI: irreverente. Cohere/Mistral: pragmático. Imitar el tono señala fit.
→ Pasa a los archivos del lab: ../lab/00-mock-interview-checklist.md, ../lab/01-paper-pitch-cards.md.