English · Español
Módulo de extensión X4 — Hardware Deep-Dive: aceleradores, interconexiones, datacenters¶
Requiere: 23 — Fundamentos de arquitectura GPU · 35 — Entrenamiento e inferencia distribuidos Enseña:
h100·nvlink·allreduce·interconnects·datacenter-economicsSalta a cualquier capítulo desde el índice de referencia de fases.
Mapa del capítulo¶
🇪🇸 Módulo de extensión sobre el hardware moderno de IA (AI): arquitecturas de aceleradores (GPU/TPU/Trainium/Gaudi), interconexiones (NVLink/InfiniBand) y la economía de los datacenters. Cierra la brecha "hardware bringup / accelerator landscape" del
HIRING_PATH.md.
Estado¶
- Track: Extensión (paralelo al currículo central de 40 fases)
- Autorización: Addendum A15 (tracks de extensión autorizados)
- Prerrequisitos: Fase 01 (substrato de hardware / roofline), Fase 23 (fundamentos de GPU)
- Salvaguarda de alcance: Pesada en teoría. Los labs requieren alquileres en la nube; documentados como ejercicios con presupuesto en dólares.
- Límite de hardware: El Lab 00 corre en i5-8250U + 1× A100 (1 h) + 1× H100 (1 h). El Lab 01 requiere 2 nodos de 8 GPUs (1 h).
Por qué existe este módulo¶
A un ingeniero de aprendizaje automático (machine learning) entrevistándose en Anthropic, NVIDIA, Google o AWS le preguntarán: "¿Cómo escalarías tu modelo de 8 GPUs a 1024?" — y la verdadera respuesta no está en el código del modelo. Está en la topología del interconnect, en las primitivas colectivas, en la jerarquía de memoria del acelerador, y en el presupuesto de potencia del cluster. El currículo central toca programación de GPU en las Fases 23-24 y entrenamiento distribuido en la Fase 35, pero no da un mapa fluido del panorama de aceleradores. Este módulo rellena ese hueco.
Este módulo es lo que te permite estar en una reunión con un equipo de infra y no necesitar un traductor.
Mapa del módulo¶
| Archivo | Tema |
|---|---|
theory/00-motivation.md |
Por qué la fluidez en hardware soporta peso en entrevistas incluso para ingenieros de ML |
theory/01-cpu-vs-gpu-vs-tpu-vs-trn1.md |
Comparación de arquitecturas: CPU de control de flujo, GPU SIMT, TPU sistólico, Trainium, Gaudi |
theory/02-h100-and-h200.md |
Análisis profundo de H100 / H200 / Blackwell: Tensor Cores, FP8, NVLink, NVSwitch, MIG |
theory/03-interconnects-and-topology.md |
NVLink, PCIe, InfiniBand, RoCE; fat-tree vs torus; primitivas colectivas |
theory/04-datacenter-economics.md |
Potencia, PUE, $/MWh, CapEx vs OpEx; por qué el coste del entrenamiento frontier es 60% energía |
theory/05-the-accelerator-landscape-2026.md |
NVIDIA Blackwell, AMD MI300X, Intel Gaudi 3, TPU v5p, Trainium 2, Cerebras WSE-3, Groq LPU |
lab/00-roofline-on-three-accelerators.md |
Mismo matmul: i5-8250U vs A100 vs H100; explicación de la brecha por acelerador |
lab/01-collective-comm-microbenchmark.md |
nccl-tests en 2 nodos × 8 GPUs; AllReduce 1 MB / 100 MB / 1 GB; teórico vs medido |
Enlaces cruzados al currículo central¶
- Fase 01 — Substrato de hardware: el lado CPU de la misma historia. Esta extensión es la secuela natural.
- Fase 23 — Fundamentos de GPU: modelo de ejecución SIMT, warps, ocupación. X4 extiende a GPU a escala de datacenter.
- Fase 24 — CUDA y Triton: programación de kernels en una sola GPU. X4 da el porqué a escala de flota.
- Fase 35 — Entrenamiento distribuido: los colectivos se usan ahí; X4 es donde los entiendes.
Referencias clave¶
- NVIDIA H100 Tensor Core GPU Architecture Whitepaper (2022, rev. 2024).
- NVIDIA H200 Datasheet (2024).
- NVIDIA Blackwell Architecture Whitepaper (2024).
- Jouppi et al. 2017, In-Datacenter Performance Analysis of a Tensor Processing Unit — el artículo original de la TPU.
- Jouppi et al. 2023, TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning.
- AWS Trainium Architecture Guide (2023, Trn1) y Trainium 2 (2024).
- Intel Gaudi 3 Whitepaper (2024).
- Cerebras WSE-3 Whitepaper (2024).
- Patterson et al. 2021, Carbon Emissions and Large Neural Network Training.
- Resultados MLPerf Training v4.0 e Inference v4.1 (2024).
Definition of Done¶
- Los seis archivos de teoría revisados por
math-revieweryphase-gatekeeper. - Cada afirmación numérica tiene una fuente citada.
- El Lab 00 tiene una tripleta roofline reproducible (i5-8250U, A100, H100) con SKUs de
runpod.iodocumentadas y coste. - El Lab 01 tiene setup de
nccl-tests+ tabla esperada vs medida de AllReduce para 2 nodos × 8 GPUs. -
mkdocs build --strictpasa con X4 en la navegación.
Presupuesto de coste para los labs¶
| Lab | Necesidad en la nube | Coste aproximado |
|---|---|---|
| Lab 00 | 1 h A100 (40 GB u 80 GB) | ~$1.50 |
| Lab 00 | 1 h H100 (80 GB) | ~$3.00 |
| Lab 01 | 1 h 2 nodos × 8× H100 (o A100) | ~$15.00 |
| Total | — | ~$20 |
Todos los precios son tarifas spot/on-demand del mercado 2025-2026 de runpod.io / lambda.ai / vast.ai. Las especificaciones de los labs documentan las SKUs exactas.
Lecturas recomendadas¶
Opcional — enriquece pero no es necesario para aprobar la fase.
- 📘 NVIDIA H100 Tensor Core GPU Architecture — NVIDIA · 2022. el acelerador del que debes saber hablar en entrevistas.