Skip to content

English · Español

Módulo de extensión X4 — Hardware Deep-Dive: aceleradores, interconexiones, datacenters

Requiere: 23 — Fundamentos de arquitectura GPU · 35 — Entrenamiento e inferencia distribuidos Enseña: h100 · nvlink · allreduce · interconnects · datacenter-economics Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo

🇪🇸 Módulo de extensión sobre el hardware moderno de IA (AI): arquitecturas de aceleradores (GPU/TPU/Trainium/Gaudi), interconexiones (NVLink/InfiniBand) y la economía de los datacenters. Cierra la brecha "hardware bringup / accelerator landscape" del HIRING_PATH.md.

Estado

  • Track: Extensión (paralelo al currículo central de 40 fases)
  • Autorización: Addendum A15 (tracks de extensión autorizados)
  • Prerrequisitos: Fase 01 (substrato de hardware / roofline), Fase 23 (fundamentos de GPU)
  • Salvaguarda de alcance: Pesada en teoría. Los labs requieren alquileres en la nube; documentados como ejercicios con presupuesto en dólares.
  • Límite de hardware: El Lab 00 corre en i5-8250U + 1× A100 (1 h) + 1× H100 (1 h). El Lab 01 requiere 2 nodos de 8 GPUs (1 h).

Por qué existe este módulo

A un ingeniero de aprendizaje automático (machine learning) entrevistándose en Anthropic, NVIDIA, Google o AWS le preguntarán: "¿Cómo escalarías tu modelo de 8 GPUs a 1024?" — y la verdadera respuesta no está en el código del modelo. Está en la topología del interconnect, en las primitivas colectivas, en la jerarquía de memoria del acelerador, y en el presupuesto de potencia del cluster. El currículo central toca programación de GPU en las Fases 23-24 y entrenamiento distribuido en la Fase 35, pero no da un mapa fluido del panorama de aceleradores. Este módulo rellena ese hueco.

Este módulo es lo que te permite estar en una reunión con un equipo de infra y no necesitar un traductor.

Mapa del módulo

Archivo Tema
theory/00-motivation.md Por qué la fluidez en hardware soporta peso en entrevistas incluso para ingenieros de ML
theory/01-cpu-vs-gpu-vs-tpu-vs-trn1.md Comparación de arquitecturas: CPU de control de flujo, GPU SIMT, TPU sistólico, Trainium, Gaudi
theory/02-h100-and-h200.md Análisis profundo de H100 / H200 / Blackwell: Tensor Cores, FP8, NVLink, NVSwitch, MIG
theory/03-interconnects-and-topology.md NVLink, PCIe, InfiniBand, RoCE; fat-tree vs torus; primitivas colectivas
theory/04-datacenter-economics.md Potencia, PUE, $/MWh, CapEx vs OpEx; por qué el coste del entrenamiento frontier es 60% energía
theory/05-the-accelerator-landscape-2026.md NVIDIA Blackwell, AMD MI300X, Intel Gaudi 3, TPU v5p, Trainium 2, Cerebras WSE-3, Groq LPU
lab/00-roofline-on-three-accelerators.md Mismo matmul: i5-8250U vs A100 vs H100; explicación de la brecha por acelerador
lab/01-collective-comm-microbenchmark.md nccl-tests en 2 nodos × 8 GPUs; AllReduce 1 MB / 100 MB / 1 GB; teórico vs medido

Enlaces cruzados al currículo central

Referencias clave

  • NVIDIA H100 Tensor Core GPU Architecture Whitepaper (2022, rev. 2024).
  • NVIDIA H200 Datasheet (2024).
  • NVIDIA Blackwell Architecture Whitepaper (2024).
  • Jouppi et al. 2017, In-Datacenter Performance Analysis of a Tensor Processing Unit — el artículo original de la TPU.
  • Jouppi et al. 2023, TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning.
  • AWS Trainium Architecture Guide (2023, Trn1) y Trainium 2 (2024).
  • Intel Gaudi 3 Whitepaper (2024).
  • Cerebras WSE-3 Whitepaper (2024).
  • Patterson et al. 2021, Carbon Emissions and Large Neural Network Training.
  • Resultados MLPerf Training v4.0 e Inference v4.1 (2024).

Definition of Done

  • Los seis archivos de teoría revisados por math-reviewer y phase-gatekeeper.
  • Cada afirmación numérica tiene una fuente citada.
  • El Lab 00 tiene una tripleta roofline reproducible (i5-8250U, A100, H100) con SKUs de runpod.io documentadas y coste.
  • El Lab 01 tiene setup de nccl-tests + tabla esperada vs medida de AllReduce para 2 nodos × 8 GPUs.
  • mkdocs build --strict pasa con X4 en la navegación.

Presupuesto de coste para los labs

Lab Necesidad en la nube Coste aproximado
Lab 00 1 h A100 (40 GB u 80 GB) ~$1.50
Lab 00 1 h H100 (80 GB) ~$3.00
Lab 01 1 h 2 nodos × 8× H100 (o A100) ~$15.00
Total ~$20

Todos los precios son tarifas spot/on-demand del mercado 2025-2026 de runpod.io / lambda.ai / vast.ai. Las especificaciones de los labs documentan las SKUs exactas.

Lecturas recomendadas

Opcional — enriquece pero no es necesario para aprobar la fase.