English · Español

06 — Prep específica por empresa: señales por laboratorio¶

Lo que cada laboratorio prioriza en entrevistas: Anthropic (alineamiento, IA constitucional, "explica por qué los modelos fallan"); OpenAI (escala + juicio de producto); DeepMind (profundidad de investigación + matemáticas); Google Brain (papers + producción); xAI (pragmatismo de ingeniería); Cohere / Mistral (multilingüe + retrieval).

Cómo leer este archivo¶

Cada sección tiene tres bloques: 1. Qué valoran — cultura y prioridades de investigación, destiladas de declaraciones públicas, papers y entradas de blog de ingeniería (2024-2026). 2. Qué esperar en el loop — las preguntas / formatos específicos que sus entrevistadores tienden a preferir. 3. La prep en lynx-cortex — qué fase / módulo / drill da más palanca para esa empresa.

Son heurísticas a partir de información pública, no contratos. Calibra con el brief del recruiter.

Anthropic¶

Qué valoran¶

Alineamiento primero. La producción de research publicada está dominada por trabajo de alineamiento: Constitutional AI, RLHF, supervisión escalable, interpretabilidad (circuits, sparse autoencoders), red-teaming, razonamiento sobre el comportamiento del modelo. Si no tienes una opinión sobre alineamiento, lo vas a pasar mal.
Incertidumbre honesta. El estilo de escritura de Anthropic es deliberadamente medido — humildad epistémica al estilo "todavía no lo sabemos". Engineers / researchers que proyectan confianza falsa se filtran.
Razonamiento cuidadoso y de contexto largo. Sus releases de modelos (Claude 3.5, Claude 4, Claude Opus) enfatizan calidad de razonamiento por encima de perseguir benchmarks. Los entrevistadores se fijan en tu proceso de razonamiento, no sólo en la respuesta.
Safety como ingeniería, no teatro. Esperan que pienses los modos de fallo de forma concreta — no "la IA podría ser insegura" sino "esta clase específica de prompt causa este fallo específico".

Qué esperar en el loop¶

Phone screen. Coding estándar (attention, BPE o similar) + un concepto de ML.
Ronda de ML systems. A menudo incluye una restricción tipo "diseña un sistema que no produzca contenido dañino por accidente" — capacidad más safety.
Ronda de paper. Probablemente un paper reciente de Anthropic (CAI, Constitutional Classifiers, Influence Functions, Scaling Monosemanticity, Sleeper Agents). Léelos.
Ronda behavioral — la distintiva de Anthropic. Espera preguntas como:
"Cuéntame de una vez que un modelo se comportó mal. ¿Qué investigaste?"
"¿Cuál es tu visión sobre AI safety?"
"¿Cuándo te has equivocado en algo importante?"
"Explica por qué los modelos de lenguaje alucinan."
Bar raiser / hiring manager. A menudo testea calibración: "¿Cómo de seguro estás de esta respuesta? ¿Qué te haría cambiar de opinión?"

Temas concretos sobre los que tener fluidez¶

Tema	Fuente
Constitutional AI	Bai et al. 2022
RLHF / RLAIF	Christiano 2017, Lee 2023
Supervisión escalable (debate, weak-to-strong)	Bowman 2022, Burns 2023
Interpretabilidad mecanística	Olah / Conmy / Bricken (circuits, SAEs)
Sleeper Agents / alineamiento engañoso	Hubinger 2024
Sycophancy y reward hacking	Sharma 2023
Model Spec / políticas de comportamiento	Comportamientos publicados de Anthropic

La prep en lynx-cortex¶

El módulo X3 RLHF/DPO es la prep de mayor palanca. Ten que poder derivar DPO desde RLHF en pizarra (ver whiteboard Q14, drill 06).
Fase 37 (Security & Safety) + X3 theory/05 (Constitutional AI) para la ronda behavioral.
Anécdota behavioral 8 ("model behaved badly") es la historia de mayor palanca.
Whiteboard Q24 (Constitutional AI) — poder explicar la distinción SL-CAI / RL-CAI.

OpenAI¶

Qué valoran¶

Escala y velocidad de ingeniería. OpenAI envía rápido y a escala; se espera que los engineers sean product-savvy además de técnicamente profundos.
Juicio de producto. "¿Qué deberíamos enviar?" es una pregunta real de entrevista. Quieren builders que piensen en valor de usuario, no sólo en código elegante.
Intuición práctica de scaling laws. Compute, datos, presupuestos de parámetros, economía de inferencia. Inventaron el predecesor de Chinchilla (Kaplan 2020) y operan en la frontera del inference scaling.
Menos público en alineamiento, más público en capacidades que Anthropic. Su mix de research público pesa más en capacidades y producto (GPT-4 system card, o1 reasoning, Sora, Realtime API).

Qué esperar en el loop¶

Phone screen. Cargado de coding. Implementa algo. La velocidad cuenta.
Ronda de ML systems. A menudo "diseña un servicio de inferencia a nuestra escala" — la capacity math del prompt 1 de 02-systems-design-for-llms.md es el centro de la diana.
Ronda de coding. Implementa attention / sampling / una primitiva en PyTorch. La velocidad se evalúa.
Ronda de producto / juicio. "Si fueras la PM de ChatGPT, ¿qué priorizarías?" — quieren ver opiniones respaldadas por datos.
Ronda de research / paper. Puede preguntar por scaling laws, mixture-of-experts, entrenamiento multimodal.

Temas concretos¶

Tema	Fuente
Scaling laws	Kaplan 2020, Hoffmann 2022, update Hoffmann 2024
RLHF (InstructGPT)	Ouyang 2022
Mixture of experts	Switch Transformer, GShard, arquitectura rumoreada de GPT-4
Multimodal	GPT-4V system card, Sora technical report
Razonamiento (o1, o3)	OpenAI o1 / o3 system cards
Inferencia / batching	Continuous batching, speculative decoding

La prep en lynx-cortex¶

Fase 33 (inference serving) + drill 12 (continuous batcher) para la ronda de systems.
Fase 38 (MLOps) para respuestas con disciplina de coste (encuadre CpQU).
Paper-pitch cards 4 (GPT-3), 10 (Chinchilla), 13 (InstructGPT) memorizadas.
Ten una opinión de producto: elige una feature de un producto de OpenAI y argumenta por qué funciona o no.

Google DeepMind¶

Qué valoran¶

Profundidad de research. DeepMind tiene la cultura de publicación de research más fuerte de cualquier laboratorio grande. Incluso en roles de engineering se espera que leas papers con fluidez.
Matemáticas. RL, teoría, optimización, teoría de la información. El listón es el más alto en fluidez matemática entre los laboratorios.
Problemas de horizonte largo. AlphaFold, AlphaProof, AlphaGeometry — DeepMind persigue objetivos científicos duros y de largo recorrido.
Rigor de producción. Ahora fusionado con Google Brain — la escala de producción también es parte del listón.

Qué esperar en el loop¶

Phone screen. Coding + discusión corta de un paper de research.
Ronda de research (para roles RS, RE). Presenta tu trabajo previo; espera sondeo profundo en metodología, ablations y "qué harías diferente".
Ronda de math / teoría. Optimización, teoría de la información, fundamentos de RL. Prepárate para derivar policy gradient en pizarra.
Ronda de coding. Estándar.
Ronda de paper. Probablemente un paper de DeepMind — Chinchilla, Flamingo, Gemini, Gato, AlphaFold, AlphaProof, Gemma.

Temas concretos¶

Tema	Fuente
Chinchilla scaling	Hoffmann 2022
Fundamentos de RL	Sutton & Barto; PPO; SAC; DQN
Distributed training	Megatron, JAX/Flax, DeepSpeed
Linaje AlphaGo	Silver 2016, AlphaZero, MuZero
Arquitectura de Gemini	Gemini technical report

La prep en lynx-cortex¶

Fase 04 (cálculo y optimización) es la de mayor palanca. Deriva todo.
Fase 19 (training dynamics) — DeepMind se preocupa por la estabilidad de entrenamiento.
Módulo X3 — fundamentos de RL (theory/01).
Paper-pitch card 12 (Chinchilla) memorizada; poder derivar el ajuste de la scaling law.

Google Brain (dentro de Google DeepMind)¶

Qué valoran¶

Prolíficos en papers — históricamente el equipo único que más publica en IA.
Escala de producción — envían a Google Search, Workspace, Pixel.
Eclécticos — cubren visión, NLP, robótica, IA en salud, hardware (TPU). Trae tu especialidad.
Tras 2023, fusionados organizativamente con DeepMind; algunas señales solapan.

Qué esperar en el loop¶

Similar a DeepMind pero con más énfasis en infraestructura de producción (TPU, JAX, GShard).
Más probable que DeepMind a preguntar sobre MLOps, serving multi-tenant, tuning de latencia.

Temas concretos¶

Tema	Fuente
Transformer (original)	Vaswani 2017
BERT / T5 / PaLM	Devlin 2018, Raffel 2019, Chowdhery 2022
Mixture of experts	Shazeer 2017, Switch Transformer
Pathways / JAX	Pathways paper, JAX docs
Arquitectura TPU	Papers de TPU, submissions de MLPerf

La prep en lynx-cortex¶

Igual que DeepMind, más Fase 33 (inference serving) y Fase 35 (distributed).
Paper-pitch card 1 (Attention) memorizada.

xAI¶

Qué valoran¶

Pragmatismo de ingeniería. Menos prolíficos en papers que DeepMind, más enfocados en entrenar y desplegar a escala rápido.
Sentido de hardware. Grok se entrenó en el clúster de Memphis (Colossus, 100k+ H100s). Quieren engineers que entiendan networking de GPU, NCCL, RDMA.
Velocidad de iteración. xAI envió Grok, Grok-1.5, Grok-2, Grok-3 rápido. Recompensan a quien envía.
Alineamiento pragmático. Menos enfocado en alineamiento teórico que Anthropic; más "enviamos un producto, aquí están los guardarraíles".

Qué esperar en el loop¶

Phone screen. Cargado de coding.
Ronda de systems. Probablemente "cómo entrenarías un modelo de frontera en N GPUs" — capacity math, estrategias de distributed (FSDP, ZeRO, tensor / pipeline / sequence parallelism), gestión de fallos.
Ronda de coding. Implementación bajo presión de tiempo.
Ronda de cultura. Menos STAR, más "cuéntanos qué te emociona de Grok".

Temas concretos¶

Tema	Fuente
Distributed training	Megatron, FSDP, ZeRO, DeepSpeed
NCCL / RDMA / Infiniband	NVIDIA networking docs
FlashAttention	Dao 2022, FA-2, FA-3
Arquitecturas estilo Llama	Llama 2, Llama 3 technical reports
System cards de Grok	Docs de modelo publicados por xAI

La prep en lynx-cortex¶

Fase 35 (distributed) es la de mayor palanca.
Fase 23 + 24 (GPU + CUDA / Triton) — poder esbozar un kernel de Triton.
Drill 03 (gradient checkpointing) y drill 12 (continuous batcher).

Cohere¶

Qué valoran¶

Enterprise multilingüe. El posicionamiento de Cohere es API-first, orientado a negocio, fuerte en multilingüe.
Excelencia en retrieval. Sus modelos Embed y Rerank son top en muchos casos de uso de RAG en producción.
Práctico / desplegable. Menos "carrera de modelos de frontera", más "haz que el retrieval en producción funcione".

Qué esperar en el loop¶

Fuerte énfasis en systems design de RAG / retrieval.
Preguntas de tokenización y evaluación multilingüe.
Integración enterprise — authn/authz, multi-tenancy, residencia de datos.

Temas concretos¶

Tema	Fuente
Dense retrieval	DPR, BGE, E5, Cohere Embed v3
Reranking	Cross-encoder, Cohere Rerank
Hybrid retrieval	BM25 + dense fusion
Tokenización multilingüe	XLM-R, Aya
Retrieval de contexto largo	Recursive retrieval, hierarchical RAG

La prep en lynx-cortex¶

Fase 29 (RAG) es la de mayor palanca.
Fase 11 (tokenización) con atención a ratios multilingües.
Whiteboard Q19 (RAG) y Q20 (vocab) memorizadas.

Mistral¶

Qué valoran¶

Pragmatismo open-weight. Mistral ha enviado open weights fuertes (Mistral 7B, Mixtral, Mistral Large). Mezcla cultura de research francesa con intensidad de startup europea.
Arquitecturas eficientes. Sliding-window attention, mixture of experts, grouped-query attention. La reputación de Mistral es "decisiones inteligentes de arquitectura, no sólo más grande".
Multilingüe. Especialmente lenguas europeas.

Qué esperar en el loop¶

Fuerte foco en decisiones de arquitectura y ablations.
"Por qué GQA vs MHA vs MQA" es una pregunta típica.
Fluidez en el ecosistema open-weight (Hugging Face, llama.cpp, vLLM).

Temas concretos¶

Tema	Fuente
Sliding-window attention	Mistral 7B paper
Mixture of experts	Mixtral paper
Grouped-query attention	Ainslie 2023
Mistral Large	Mistral technical reports
Tooling open-weight	Hugging Face, vLLM, llama.cpp

La prep en lynx-cortex¶

Fase 27 (attention moderno) para sliding-window y FlashAttention.
Fase 36 (arquitecturas de frontera) para MoE.
Paper-pitch card 15 (Mistral 7B) memorizada.

Matriz cross-empresa de referencia rápida¶

Tema	Anthropic	OpenAI	DeepMind	Brain	xAI	Cohere	Mistral
Profundidad de alineamiento	★★★	★★	★★	★★	★	★	★
Profundidad matemática	★★	★★	★★★	★★	★★	★★	★★
Distributed training	★★	★★★	★★★	★★★	★★★	★	★★
Escala de producción	★★	★★★	★★	★★★	★★★	★★★	★★
Retrieval	★	★	★	★	★	★★★	★
Open-weights / ecosistema	★	★	★	★★	★	★	★★★
Constitutional AI / Safety	★★★	★★	★★	★★	★	★	★

Una nota sobre el tono¶

Cada laboratorio tiene un tono que debes igualar. Lee 3-5 de sus blog posts publicados antes de la entrevista. Anthropic: medido y consciente de la incertidumbre. OpenAI: confiado y orientado a producto. DeepMind: académico. xAI: irreverente. Cohere/Mistral: pragmático. Imitar el tono señala fit.

→ Pasa a los archivos del lab: ../lab/00-mock-interview-checklist.md, ../lab/01-paper-pitch-cards.md.