English · Español

05 — El panorama de aceleradores, edición 2026¶

🇪🇸 Una guía honesta del mercado: quién hace qué, qué saben hacer bien, y dónde está la trampa del software stack.

Por qué necesitas este mapa¶

En 2026, "comprar GPUs" no es una decisión única. Es una elección multi-eje sobre cómputo, memoria, red, madurez de software, disponibilidad de suministro y precio. Un ingeniero de ML senior debe poder argumentar la elección, no solo ir por defecto a "H100 porque es lo que conocemos".

Esta página es el panorama honesto y neutral respecto al vendor.

Las siete grandes (aceleradores capaces de entrenamiento)¶

Vendor	Chip	Año	Pico FP8/FP16	HBM	Interconnect	Stack	Nicho
NVIDIA	H100	2022	1979 / 989 TF	80 GB	NVLink 4 (900 GB/s)	CUDA, PyTorch nativo	Default; maduro
NVIDIA	H200	2024	1979 / 989 TF	141 GB	NVLink 4 (900 GB/s)	CUDA, PyTorch nativo	Inferencia limitada por memoria
NVIDIA	B200	2024-2025	4500 / 2250 TF; 9000 TF FP4	192 GB	NVLink 5 (1.8 TB/s)	CUDA, Transformer Engine v2	Entrenamiento frontier
AMD	MI300X	2023	2614 / 1307 TF	192 GB	Infinity Fabric (896 GB/s)	ROCm, PyTorch (mejorando)	Serving con mucha memoria
Intel	Gaudi 3	2024	1835 / 1835 TF	128 GB	24× 200 GbE on-chip	SynapseAI, PyTorch vía Habana	Entrenamiento con precio competitivo
Google	TPU v5p	2023	-- / 459 TF BF16	95 GB	ICI 3D-torus	JAX/XLA, PyTorch vía torch_xla	Entrenamiento a escala de TPU-Pod
AWS	Trainium 2	2024	-- / ~650 TF	96 GB	NeuronLink v3	Neuron SDK, XLA, PyTorch	Entrenamiento interno de AWS

[fuente: respectivos whitepapers de vendor citados en §01 y §02]

NVIDIA Blackwell — la frontera de 2025¶

Ya cubierto en §02. El titular:

FP4 con Transformer Engine de 2.ª generación dobla otra vez los FLOPS efectivos.
GB200 NVL72 hace del rack (72 GPUs, dominio NVLink de 130 TB/s) la unidad de cómputo.
La refrigeración líquida se vuelve obligatoria a 1000 W por chip.
Limitada en suministro. Tiempos de entrega largos.

Software stack: CUDA + cuDNN + PyTorch + Transformer Engine. El stack más maduro por un amplio margen.

AMD MI300X — el retador creíble¶

192 GB HBM3 — la mayor capacidad de memoria de cualquier chip único hasta la B200. Te permite meter un modelo de 70B FP16 en una sola GPU.
5.3 TB/s de bandwidth HBM — 58% más que la H100.
2614 TF FP8 denso (vs los 1979 de la H100).
8 chiplets (XCDs) por paquete.

Fortaleza: workloads limitados por memoria (inferencia de contexto largo, MoE pesado en KV-cache) donde cambias FLOPS por HBM. Microsoft, Meta y Oracle están desplegando MI300X públicamente.

Debilidad: ROCm está mejorando rápido pero sigue 12-18 meses por detrás de CUDA en: - Optimización del compilador para ops novedosos. - Soporte de Triton. - Kernels hand-tuned tipo FlashAttention. - Herramientas multi-vendor.

Evaluación realista: un lab frontier puede enviar sobre MI300X si dota a un equipo interno de kernels. Una startup probablemente no.

[fuente: AMD CDNA 3 whitepaper 2023; anuncios de despliegue de Microsoft + AMD MI300X 2024]

Intel Gaudi 3 — la jugada de RDMA integrado¶

1835 TF BF16/FP8 denso — competitivo con la H100 sobre el papel.
128 GB HBM2e @ 3.7 TB/s.
La feature única: 24× 200 GbE puertos RoCE RDMA integrados en el chip. Sin NIC separado. Cada Gaudi es su propio endpoint de red.

Fortaleza: el networking integrado reduce dramáticamente el CapEx del fabric (~30%, afirmación del vendor). PyTorch vía habana_frameworks.torch es sólido para entrenamiento de transformer. Intel está fijando precios agresivos como nuevo entrante.

Debilidad: SynapseAI va por detrás de ROCm, que va por detrás de CUDA. Comunidad más pequeña → menos tooling de terceros. Menos probado a muy gran escala.

[fuente: Intel Gaudi 3 Whitepaper 2024]

Google TPU v5p — la opción JAX-nativa¶

459 TF BF16 / 918 TF INT8 por chip.
95 GB HBM @ 2.76 TB/s.
TPU v5p Pod: hasta 8960 chips en un 3D-torus con reconfiguración óptica. El mayor sistema de cómputo de instancia única en cualquier nube.
Programación: JAX + XLA es de primera clase; PyTorch vía torch_xla funciona pero va por detrás.

Fortaleza: el compilador hace sharding automáticamente (jax.shard_map). El 3D-torus es óptimo en bandwidth para AllReduce en un Pod. Google entrena Gemini aquí.

Debilidad: solo en Google Cloud (sin on-prem). Los kernels personalizados son esencialmente imposibles — estás a merced del compilador. Se requiere habilidad en JAX.

[fuente: anuncio de Google TPU v5p diciembre 2023; Jouppi et al. 2023]

AWS Trainium 2 — la jugada de precio cloud-native¶

~650 TF FP16, 96 GB HBM @ 2.9 TB/s.
Vendido en instancias trn2.48xlarge (16 chips/instancia) y UltraClusters de 100k+ chips.
AWS fija el precio de Trainium ~30-40% por debajo de la H100 en el mismo workload de entrenamiento [fuente: AWS re:Invent 2024 keynote, afirmación del vendor].

Fortaleza: el menor $/FLOP-de-entrenamiento en AWS por un amplio margen. Anthropic entrena públicamente sobre Trainium.

Debilidad: el Neuron SDK está mejorando pero aún requiere tuning específico por workload. PyTorch vía torch-neuronx. Limitado a AWS; ninguna otra nube tiene Trainium.

Los tres exóticos (no primariamente de entrenamiento, pero vale la pena conocerlos)¶

Cerebras WSE-3 — integración a escala de wafer¶

La oblea entera de 300mm es un solo chip: 900.000 cores, 44 GB de SRAM on-chip, 21 PB/s de bandwidth de memoria.
Sin HBM: toda la memoria es SRAM on-chip. El bandwidth es esencialmente infinito según los estándares de GPU.
Diseñado para entrenamiento; los sistemas CS-3 se venden a labs gubernamentales y algunos hyperscalers.

Fortaleza: bandwidth de sistema único sin igual. Sin overhead de NVLink/IB — el chip es el cluster. Excelente para modelos que caben (hasta unos ~24B parámetros por WSE-3 con su MemoryX off-chip).

Debilidad: la programabilidad requiere tooling específico de Cerebras (sin one-liner de PyTorch). Caro por sistema. La madurez del software stack es baja.

[fuente: Cerebras WSE-3 Whitepaper 2024]

Groq LPU — solo inferencia, residente en SRAM¶

Sin HBM. Todos los pesos del modelo en 230 MB de SRAM on-chip por chip.
Vende latencia de inferencia: ~500-800 tokens/sec en Llama 70B (multi-chip).
Ejecución determinista, de bajo jitter — sin cachés, sin out-of-order.

Fortaleza: latencia de inferencia para generaciones cortas. Los tokens/sec de single-stream más rápidos del mercado.

Debilidad: escalar requiere muchos chips (modelo repartido en cientos de LPUs). No para entrenamiento. Limitado a modelos específicos que el compilador de Groq ha sintonizado.

[fuente: Groq LPU Architecture Brief 2024]

Apple Silicon (Neural Engine de la serie M)¶

No es un acelerador de entrenamiento. ANE es ~38 TOPS INT8 para inferencia on-device en iPhones/Macs. Relevante solo si apuntas a hardware de consumo.

Madurez del software stack — el ranking honesto¶

Este es el eje que de verdad decide las elecciones, más que los FLOPS.

Stack	Madurez	¿PyTorch nativo?	Kernels personalizados	Ecosistema
CUDA + PyTorch	A+	Sí	Triton, CUDA-C, CUTLASS	Todo el campo
ROCm + PyTorch	B	Sí (en su mayoría)	hipBLAS, AITemplate	Creciendo
JAX + XLA (TPU)	A	Vía `torch_xla` (B-)	Pallas (nuevo)	Comunidad JAX/investigación
Neuron SDK (Trainium)	B-	Vía `torch-neuronx`	Limitado	Solo AWS
SynapseAI (Gaudi)	B-	Vía `habana_frameworks`	Limitado	Intel + clientes selectos
Cerebras SDK	C	Parcial	Solo vendor	Pequeño
Groq SDK	C	Solo flujo compilado	Solo vendor	Pequeño

El patrón: el moat de NVIDIA es el software, no el hardware. ROCm y los stacks de los cloud-vendors están cerrando la brecha pero la ventaja es de años.

Imagen estratégica para 2026¶

Default para nuevos proyectos de entrenamiento: NVIDIA H100/H200/B200. El riesgo de software es el más bajo. El suministro es la restricción.
Si memoria > cómputo importa: AMD MI300X o H200, dependiendo de la tolerancia al stack.
Si vives en JAX: TPU v5p. La historia es sharding nativo del compilador.
Si vives en AWS a escala y quieres bajo coste: Trainium 2.
Si necesitas latencia de inferencia single-stream: Groq LPU.
Si quieres apostar por un retador: Gaudi 3 tiene una economía interesante, la historia de networking es genuinamente diferenciada.

Para una entrevista, tener una tesis sobre el panorama — no solo una lista — es lo que distingue a un candidato senior. Prepárate para defender "yo entrenaría esto en X porque Y, aunque Z."

Enlaces cruzados¶

01-cpu-vs-gpu-vs-tpu-vs-trn1.md: las primitivas arquitectónicas.
02-h100-and-h200.md: el flagship de NVIDIA en profundidad.
04-datacenter-economics.md: la lente de coste sobre estas elecciones.

Referencias¶

NVIDIA Blackwell Architecture Technical Brief, 2024.
AMD Instinct MI300X Datasheet y CDNA 3 whitepaper, 2023.
Intel Gaudi 3 Whitepaper, 2024.
Anuncio de Google TPU v5p y TPU v4: An Optically Reconfigurable Supercomputer (Jouppi et al. 2023).
Documentación de AWS Trainium 2; keynote de AWS re:Invent 2024.
Cerebras WSE-3 Whitepaper, 2024.
Groq LPU Architecture Brief, 2024.
Resultados MLPerf Training v4.0 e Inference v4.1, 2024.
SemiAnalysis, Accelerator Landscape, cobertura continua 2024-2026.