English · Español

00 — Motivación: por qué la fluidez en hardware soporta peso en entrevistas¶

🇪🇸 Aunque trabajes en modelado, los entrevistadores de Anthropic, NVIDIA y Google esperan que entiendas el hardware. No es un detalle de infra: es lo que decide qué modelos son posibles.

La rúbrica tácita de la entrevista¶

Cuando un ingeniero senior de infra de un lab frontier entrevista a un candidato de ML, comprueba algo específico: ¿esta persona sabe sobre qué está corriendo? El candidato que puede decir "el cuello de botella en una H100 para inferencia con batch-size-1 es el ancho de banda HBM, no los FLOPS, porque releemos la KV cache en cada token" pasa la barra. El candidato que solo puede hablar de arquitecturas de modelos no.

Esto no es gatekeeping. Es calibración. A escala frontier:

Una decisión de modelado (p. ej. "doblar la longitud de contexto") es una decisión de hardware ("ahora necesitamos 2× HBM por token en la KV cache, más mayor bandwidth de AllReduce para la secuencia más larga").
Una idea de investigación (p. ej. "añadamos un nuevo esquema de routing de expertos MoE") es una idea de sistemas ("el tráfico all-to-all del dispatch de expertos dominará el step time en nuestro cluster de 1024 GPUs").
Un resultado de evaluación (p. ej. "el modelo regresó en contexto largo") es a menudo un artefacto de hardware ("la numérica FP8 perdió precisión en la atención tras la posición 32k").

Si no puedes razonar sobre el hardware, no puedes razonar sobre las consecuencias de tu trabajo a escala.

Qué significa "fluidez" aquí¶

Fluidez, a los efectos de este módulo, es la capacidad de:

Nombrar los aceleradores que se envían en 2024-2026: H100, H200, B100/B200, MI300X, Gaudi 3, TPU v5p, Trainium 2. Conocer aproximadamente los FLOPS y números de HBM.
Leer un roofline para cualquiera de ellos y predecir si un kernel dado estará limitado por cómputo o por memoria.
Describir la jerarquía del interconnect: intra-chip (NVLink), intra-rack (NVSwitch), inter-rack (InfiniBand / RoCE).
Calcular el coste de una corrida de entrenamiento de 1024 GPUs en dólares y megavatios, de extremo a extremo.
Elegir el acelerador adecuado para un workload (entrenar un modelo de 70B vs servir uno de 7B vs correr un retriever RAG de contexto largo).

Al final de este módulo, los cinco deben ser reflejo.

Por qué esto es un módulo separado, no un capítulo¶

El currículo central tiene la Fase 01 (substrato CPU, roofline) y la Fase 23 (modelo SIMT en una sola GPU). Esas fases tratan de construir intuición desde una sola máquina. X4 trata de mapear una flota. Es una habilidad cognitiva distinta: menos medición, más comparación y aritmética a grandes números.

La otra razón por la que esto es un módulo separado es que el campo se mueve. El panorama de aceleradores que era actual en 2022 (V100, A100, TPU v3) no es el panorama de 2026 (Blackwell, MI300X, TPU v5p, Trainium 2). Este módulo está explícitamente versionado a 2024-2026 y etiquetado para que pueda refrescarse de forma independiente.

Entregable concreto: el quiz a ojo¶

Tras terminar X4, debes ser capaz de responder, en menos de 60 segundos y sin calculadora:

"Quiero entrenar un transformer denso de 70B parámetros sobre 1 billón de tokens. Tengo 1024 H100s. Aproximadamente, ¿cuánto tarda esto, cuánto cuesta, y cuál es el cuello de botella dominante?"

La respuesta involucra: FLOPS por token (≈ 6N para forward+backward, así que 420 GFLOP/token, así que 4.2e23 FLOPs totales) ÷ FLOPS efectivos del cluster (1024 × 989 TF/s pico FP8 × ~50% MFU ≈ 5e17 FLOPs/s) ÷ 86400 s/día → unos 10 días de tiempo de reloj. Potencia: 1024 × 700 W ≈ 720 kW de carga IT, ~860 kW con PUE 1.2, × 240 h × \(0.10/kWh ≈ **\)21k solo de electricidad. Alquiler en la nube a \(3/H100-hora: 1024 × 240 × 3 ≈ **\)740k. Cuello de botella dominante: a este tamaño, el MFU (model FLOPS utilization) está limitado por el bandwidth de AllReduce en la sincronización de gradientes.

Si ese párrafo tiene sentido, el módulo funcionó.

Enlaces cruzados¶

Fase 01 — Substrato de hardware: el modelo mental del lado CPU sobre el que se construye esto.
Fase 23 — Fundamentos de GPU: el modelo mental de una sola GPU sobre el que se construye esto.
HIRING_PATH.md (en la raíz del repo): la brecha que este módulo cierra.

Referencias¶

Karpathy A. 2023, Let's reproduce GPT-2 (124M) — intuición de FLOPS y MFU a ojo.
Hoffmann et al. 2022, Training Compute-Optimal Large Language Models (Chinchilla) — el trade-off FLOPS / tokens.
Patterson D. y Hennessy J. 2021, Computer Architecture: A Quantitative Approach, 6.ª ed. — la referencia canónica para todo en este módulo.