English · Español
05 — El panorama de aceleradores, edición 2026¶
🇪🇸 Una guía honesta del mercado: quién hace qué, qué saben hacer bien, y dónde está la trampa del software stack.
Por qué necesitas este mapa¶
En 2026, "comprar GPUs" no es una decisión única. Es una elección multi-eje sobre cómputo, memoria, red, madurez de software, disponibilidad de suministro y precio. Un ingeniero de ML senior debe poder argumentar la elección, no solo ir por defecto a "H100 porque es lo que conocemos".
Esta página es el panorama honesto y neutral respecto al vendor.
Las siete grandes (aceleradores capaces de entrenamiento)¶
| Vendor | Chip | Año | Pico FP8/FP16 | HBM | Interconnect | Stack | Nicho |
|---|---|---|---|---|---|---|---|
| NVIDIA | H100 | 2022 | 1979 / 989 TF | 80 GB | NVLink 4 (900 GB/s) | CUDA, PyTorch nativo | Default; maduro |
| NVIDIA | H200 | 2024 | 1979 / 989 TF | 141 GB | NVLink 4 (900 GB/s) | CUDA, PyTorch nativo | Inferencia limitada por memoria |
| NVIDIA | B200 | 2024-2025 | 4500 / 2250 TF; 9000 TF FP4 | 192 GB | NVLink 5 (1.8 TB/s) | CUDA, Transformer Engine v2 | Entrenamiento frontier |
| AMD | MI300X | 2023 | 2614 / 1307 TF | 192 GB | Infinity Fabric (896 GB/s) | ROCm, PyTorch (mejorando) | Serving con mucha memoria |
| Intel | Gaudi 3 | 2024 | 1835 / 1835 TF | 128 GB | 24× 200 GbE on-chip | SynapseAI, PyTorch vía Habana | Entrenamiento con precio competitivo |
| TPU v5p | 2023 | -- / 459 TF BF16 | 95 GB | ICI 3D-torus | JAX/XLA, PyTorch vía torch_xla | Entrenamiento a escala de TPU-Pod | |
| AWS | Trainium 2 | 2024 | -- / ~650 TF | 96 GB | NeuronLink v3 | Neuron SDK, XLA, PyTorch | Entrenamiento interno de AWS |
[fuente: respectivos whitepapers de vendor citados en §01 y §02]
NVIDIA Blackwell — la frontera de 2025¶
Ya cubierto en §02. El titular:
- FP4 con Transformer Engine de 2.ª generación dobla otra vez los FLOPS efectivos.
- GB200 NVL72 hace del rack (72 GPUs, dominio NVLink de 130 TB/s) la unidad de cómputo.
- La refrigeración líquida se vuelve obligatoria a 1000 W por chip.
- Limitada en suministro. Tiempos de entrega largos.
Software stack: CUDA + cuDNN + PyTorch + Transformer Engine. El stack más maduro por un amplio margen.
AMD MI300X — el retador creíble¶
- 192 GB HBM3 — la mayor capacidad de memoria de cualquier chip único hasta la B200. Te permite meter un modelo de 70B FP16 en una sola GPU.
- 5.3 TB/s de bandwidth HBM — 58% más que la H100.
- 2614 TF FP8 denso (vs los 1979 de la H100).
- 8 chiplets (XCDs) por paquete.
Fortaleza: workloads limitados por memoria (inferencia de contexto largo, MoE pesado en KV-cache) donde cambias FLOPS por HBM. Microsoft, Meta y Oracle están desplegando MI300X públicamente.
Debilidad: ROCm está mejorando rápido pero sigue 12-18 meses por detrás de CUDA en: - Optimización del compilador para ops novedosos. - Soporte de Triton. - Kernels hand-tuned tipo FlashAttention. - Herramientas multi-vendor.
Evaluación realista: un lab frontier puede enviar sobre MI300X si dota a un equipo interno de kernels. Una startup probablemente no.
[fuente: AMD CDNA 3 whitepaper 2023; anuncios de despliegue de Microsoft + AMD MI300X 2024]
Intel Gaudi 3 — la jugada de RDMA integrado¶
- 1835 TF BF16/FP8 denso — competitivo con la H100 sobre el papel.
- 128 GB HBM2e @ 3.7 TB/s.
- La feature única: 24× 200 GbE puertos RoCE RDMA integrados en el chip. Sin NIC separado. Cada Gaudi es su propio endpoint de red.
Fortaleza: el networking integrado reduce dramáticamente el CapEx del fabric (~30%, afirmación del vendor). PyTorch vía habana_frameworks.torch es sólido para entrenamiento de transformer. Intel está fijando precios agresivos como nuevo entrante.
Debilidad: SynapseAI va por detrás de ROCm, que va por detrás de CUDA. Comunidad más pequeña → menos tooling de terceros. Menos probado a muy gran escala.
[fuente: Intel Gaudi 3 Whitepaper 2024]
Google TPU v5p — la opción JAX-nativa¶
- 459 TF BF16 / 918 TF INT8 por chip.
- 95 GB HBM @ 2.76 TB/s.
- TPU v5p Pod: hasta 8960 chips en un 3D-torus con reconfiguración óptica. El mayor sistema de cómputo de instancia única en cualquier nube.
- Programación: JAX + XLA es de primera clase; PyTorch vía
torch_xlafunciona pero va por detrás.
Fortaleza: el compilador hace sharding automáticamente (jax.shard_map). El 3D-torus es óptimo en bandwidth para AllReduce en un Pod. Google entrena Gemini aquí.
Debilidad: solo en Google Cloud (sin on-prem). Los kernels personalizados son esencialmente imposibles — estás a merced del compilador. Se requiere habilidad en JAX.
[fuente: anuncio de Google TPU v5p diciembre 2023; Jouppi et al. 2023]
AWS Trainium 2 — la jugada de precio cloud-native¶
- ~650 TF FP16, 96 GB HBM @ 2.9 TB/s.
- Vendido en instancias
trn2.48xlarge(16 chips/instancia) y UltraClusters de 100k+ chips. - AWS fija el precio de Trainium ~30-40% por debajo de la H100 en el mismo workload de entrenamiento [fuente: AWS re:Invent 2024 keynote, afirmación del vendor].
Fortaleza: el menor $/FLOP-de-entrenamiento en AWS por un amplio margen. Anthropic entrena públicamente sobre Trainium.
Debilidad: el Neuron SDK está mejorando pero aún requiere tuning específico por workload. PyTorch vía torch-neuronx. Limitado a AWS; ninguna otra nube tiene Trainium.
Los tres exóticos (no primariamente de entrenamiento, pero vale la pena conocerlos)¶
Cerebras WSE-3 — integración a escala de wafer¶
- La oblea entera de 300mm es un solo chip: 900.000 cores, 44 GB de SRAM on-chip, 21 PB/s de bandwidth de memoria.
- Sin HBM: toda la memoria es SRAM on-chip. El bandwidth es esencialmente infinito según los estándares de GPU.
- Diseñado para entrenamiento; los sistemas CS-3 se venden a labs gubernamentales y algunos hyperscalers.
Fortaleza: bandwidth de sistema único sin igual. Sin overhead de NVLink/IB — el chip es el cluster. Excelente para modelos que caben (hasta unos ~24B parámetros por WSE-3 con su MemoryX off-chip).
Debilidad: la programabilidad requiere tooling específico de Cerebras (sin one-liner de PyTorch). Caro por sistema. La madurez del software stack es baja.
[fuente: Cerebras WSE-3 Whitepaper 2024]
Groq LPU — solo inferencia, residente en SRAM¶
- Sin HBM. Todos los pesos del modelo en 230 MB de SRAM on-chip por chip.
- Vende latencia de inferencia: ~500-800 tokens/sec en Llama 70B (multi-chip).
- Ejecución determinista, de bajo jitter — sin cachés, sin out-of-order.
Fortaleza: latencia de inferencia para generaciones cortas. Los tokens/sec de single-stream más rápidos del mercado.
Debilidad: escalar requiere muchos chips (modelo repartido en cientos de LPUs). No para entrenamiento. Limitado a modelos específicos que el compilador de Groq ha sintonizado.
[fuente: Groq LPU Architecture Brief 2024]
Apple Silicon (Neural Engine de la serie M)¶
No es un acelerador de entrenamiento. ANE es ~38 TOPS INT8 para inferencia on-device en iPhones/Macs. Relevante solo si apuntas a hardware de consumo.
Madurez del software stack — el ranking honesto¶
Este es el eje que de verdad decide las elecciones, más que los FLOPS.
| Stack | Madurez | ¿PyTorch nativo? | Kernels personalizados | Ecosistema |
|---|---|---|---|---|
| CUDA + PyTorch | A+ | Sí | Triton, CUDA-C, CUTLASS | Todo el campo |
| ROCm + PyTorch | B | Sí (en su mayoría) | hipBLAS, AITemplate | Creciendo |
| JAX + XLA (TPU) | A | Vía torch_xla (B-) |
Pallas (nuevo) | Comunidad JAX/investigación |
| Neuron SDK (Trainium) | B- | Vía torch-neuronx |
Limitado | Solo AWS |
| SynapseAI (Gaudi) | B- | Vía habana_frameworks |
Limitado | Intel + clientes selectos |
| Cerebras SDK | C | Parcial | Solo vendor | Pequeño |
| Groq SDK | C | Solo flujo compilado | Solo vendor | Pequeño |
El patrón: el moat de NVIDIA es el software, no el hardware. ROCm y los stacks de los cloud-vendors están cerrando la brecha pero la ventaja es de años.
Imagen estratégica para 2026¶
- Default para nuevos proyectos de entrenamiento: NVIDIA H100/H200/B200. El riesgo de software es el más bajo. El suministro es la restricción.
- Si memoria > cómputo importa: AMD MI300X o H200, dependiendo de la tolerancia al stack.
- Si vives en JAX: TPU v5p. La historia es sharding nativo del compilador.
- Si vives en AWS a escala y quieres bajo coste: Trainium 2.
- Si necesitas latencia de inferencia single-stream: Groq LPU.
- Si quieres apostar por un retador: Gaudi 3 tiene una economía interesante, la historia de networking es genuinamente diferenciada.
Para una entrevista, tener una tesis sobre el panorama — no solo una lista — es lo que distingue a un candidato senior. Prepárate para defender "yo entrenaría esto en X porque Y, aunque Z."
Enlaces cruzados¶
01-cpu-vs-gpu-vs-tpu-vs-trn1.md: las primitivas arquitectónicas.02-h100-and-h200.md: el flagship de NVIDIA en profundidad.04-datacenter-economics.md: la lente de coste sobre estas elecciones.
Referencias¶
- NVIDIA Blackwell Architecture Technical Brief, 2024.
- AMD Instinct MI300X Datasheet y CDNA 3 whitepaper, 2023.
- Intel Gaudi 3 Whitepaper, 2024.
- Anuncio de Google TPU v5p y TPU v4: An Optically Reconfigurable Supercomputer (Jouppi et al. 2023).
- Documentación de AWS Trainium 2; keynote de AWS re:Invent 2024.
- Cerebras WSE-3 Whitepaper, 2024.
- Groq LPU Architecture Brief, 2024.
- Resultados MLPerf Training v4.0 e Inference v4.1, 2024.
- SemiAnalysis, Accelerator Landscape, cobertura continua 2024-2026.