Skip to content

English · Español

05 — El panorama de aceleradores, edición 2026

🇪🇸 Una guía honesta del mercado: quién hace qué, qué saben hacer bien, y dónde está la trampa del software stack.

Por qué necesitas este mapa

En 2026, "comprar GPUs" no es una decisión única. Es una elección multi-eje sobre cómputo, memoria, red, madurez de software, disponibilidad de suministro y precio. Un ingeniero de ML senior debe poder argumentar la elección, no solo ir por defecto a "H100 porque es lo que conocemos".

Esta página es el panorama honesto y neutral respecto al vendor.

Las siete grandes (aceleradores capaces de entrenamiento)

Vendor Chip Año Pico FP8/FP16 HBM Interconnect Stack Nicho
NVIDIA H100 2022 1979 / 989 TF 80 GB NVLink 4 (900 GB/s) CUDA, PyTorch nativo Default; maduro
NVIDIA H200 2024 1979 / 989 TF 141 GB NVLink 4 (900 GB/s) CUDA, PyTorch nativo Inferencia limitada por memoria
NVIDIA B200 2024-2025 4500 / 2250 TF; 9000 TF FP4 192 GB NVLink 5 (1.8 TB/s) CUDA, Transformer Engine v2 Entrenamiento frontier
AMD MI300X 2023 2614 / 1307 TF 192 GB Infinity Fabric (896 GB/s) ROCm, PyTorch (mejorando) Serving con mucha memoria
Intel Gaudi 3 2024 1835 / 1835 TF 128 GB 24× 200 GbE on-chip SynapseAI, PyTorch vía Habana Entrenamiento con precio competitivo
Google TPU v5p 2023 -- / 459 TF BF16 95 GB ICI 3D-torus JAX/XLA, PyTorch vía torch_xla Entrenamiento a escala de TPU-Pod
AWS Trainium 2 2024 -- / ~650 TF 96 GB NeuronLink v3 Neuron SDK, XLA, PyTorch Entrenamiento interno de AWS

[fuente: respectivos whitepapers de vendor citados en §01 y §02]

NVIDIA Blackwell — la frontera de 2025

Ya cubierto en §02. El titular:

  • FP4 con Transformer Engine de 2.ª generación dobla otra vez los FLOPS efectivos.
  • GB200 NVL72 hace del rack (72 GPUs, dominio NVLink de 130 TB/s) la unidad de cómputo.
  • La refrigeración líquida se vuelve obligatoria a 1000 W por chip.
  • Limitada en suministro. Tiempos de entrega largos.

Software stack: CUDA + cuDNN + PyTorch + Transformer Engine. El stack más maduro por un amplio margen.

AMD MI300X — el retador creíble

  • 192 GB HBM3 — la mayor capacidad de memoria de cualquier chip único hasta la B200. Te permite meter un modelo de 70B FP16 en una sola GPU.
  • 5.3 TB/s de bandwidth HBM — 58% más que la H100.
  • 2614 TF FP8 denso (vs los 1979 de la H100).
  • 8 chiplets (XCDs) por paquete.

Fortaleza: workloads limitados por memoria (inferencia de contexto largo, MoE pesado en KV-cache) donde cambias FLOPS por HBM. Microsoft, Meta y Oracle están desplegando MI300X públicamente.

Debilidad: ROCm está mejorando rápido pero sigue 12-18 meses por detrás de CUDA en: - Optimización del compilador para ops novedosos. - Soporte de Triton. - Kernels hand-tuned tipo FlashAttention. - Herramientas multi-vendor.

Evaluación realista: un lab frontier puede enviar sobre MI300X si dota a un equipo interno de kernels. Una startup probablemente no.

[fuente: AMD CDNA 3 whitepaper 2023; anuncios de despliegue de Microsoft + AMD MI300X 2024]

Intel Gaudi 3 — la jugada de RDMA integrado

  • 1835 TF BF16/FP8 denso — competitivo con la H100 sobre el papel.
  • 128 GB HBM2e @ 3.7 TB/s.
  • La feature única: 24× 200 GbE puertos RoCE RDMA integrados en el chip. Sin NIC separado. Cada Gaudi es su propio endpoint de red.

Fortaleza: el networking integrado reduce dramáticamente el CapEx del fabric (~30%, afirmación del vendor). PyTorch vía habana_frameworks.torch es sólido para entrenamiento de transformer. Intel está fijando precios agresivos como nuevo entrante.

Debilidad: SynapseAI va por detrás de ROCm, que va por detrás de CUDA. Comunidad más pequeña → menos tooling de terceros. Menos probado a muy gran escala.

[fuente: Intel Gaudi 3 Whitepaper 2024]

Google TPU v5p — la opción JAX-nativa

  • 459 TF BF16 / 918 TF INT8 por chip.
  • 95 GB HBM @ 2.76 TB/s.
  • TPU v5p Pod: hasta 8960 chips en un 3D-torus con reconfiguración óptica. El mayor sistema de cómputo de instancia única en cualquier nube.
  • Programación: JAX + XLA es de primera clase; PyTorch vía torch_xla funciona pero va por detrás.

Fortaleza: el compilador hace sharding automáticamente (jax.shard_map). El 3D-torus es óptimo en bandwidth para AllReduce en un Pod. Google entrena Gemini aquí.

Debilidad: solo en Google Cloud (sin on-prem). Los kernels personalizados son esencialmente imposibles — estás a merced del compilador. Se requiere habilidad en JAX.

[fuente: anuncio de Google TPU v5p diciembre 2023; Jouppi et al. 2023]

AWS Trainium 2 — la jugada de precio cloud-native

  • ~650 TF FP16, 96 GB HBM @ 2.9 TB/s.
  • Vendido en instancias trn2.48xlarge (16 chips/instancia) y UltraClusters de 100k+ chips.
  • AWS fija el precio de Trainium ~30-40% por debajo de la H100 en el mismo workload de entrenamiento [fuente: AWS re:Invent 2024 keynote, afirmación del vendor].

Fortaleza: el menor $/FLOP-de-entrenamiento en AWS por un amplio margen. Anthropic entrena públicamente sobre Trainium.

Debilidad: el Neuron SDK está mejorando pero aún requiere tuning específico por workload. PyTorch vía torch-neuronx. Limitado a AWS; ninguna otra nube tiene Trainium.

Los tres exóticos (no primariamente de entrenamiento, pero vale la pena conocerlos)

Cerebras WSE-3 — integración a escala de wafer

  • La oblea entera de 300mm es un solo chip: 900.000 cores, 44 GB de SRAM on-chip, 21 PB/s de bandwidth de memoria.
  • Sin HBM: toda la memoria es SRAM on-chip. El bandwidth es esencialmente infinito según los estándares de GPU.
  • Diseñado para entrenamiento; los sistemas CS-3 se venden a labs gubernamentales y algunos hyperscalers.

Fortaleza: bandwidth de sistema único sin igual. Sin overhead de NVLink/IB — el chip es el cluster. Excelente para modelos que caben (hasta unos ~24B parámetros por WSE-3 con su MemoryX off-chip).

Debilidad: la programabilidad requiere tooling específico de Cerebras (sin one-liner de PyTorch). Caro por sistema. La madurez del software stack es baja.

[fuente: Cerebras WSE-3 Whitepaper 2024]

Groq LPU — solo inferencia, residente en SRAM

  • Sin HBM. Todos los pesos del modelo en 230 MB de SRAM on-chip por chip.
  • Vende latencia de inferencia: ~500-800 tokens/sec en Llama 70B (multi-chip).
  • Ejecución determinista, de bajo jitter — sin cachés, sin out-of-order.

Fortaleza: latencia de inferencia para generaciones cortas. Los tokens/sec de single-stream más rápidos del mercado.

Debilidad: escalar requiere muchos chips (modelo repartido en cientos de LPUs). No para entrenamiento. Limitado a modelos específicos que el compilador de Groq ha sintonizado.

[fuente: Groq LPU Architecture Brief 2024]

Apple Silicon (Neural Engine de la serie M)

No es un acelerador de entrenamiento. ANE es ~38 TOPS INT8 para inferencia on-device en iPhones/Macs. Relevante solo si apuntas a hardware de consumo.

Madurez del software stack — el ranking honesto

Este es el eje que de verdad decide las elecciones, más que los FLOPS.

Stack Madurez ¿PyTorch nativo? Kernels personalizados Ecosistema
CUDA + PyTorch A+ Triton, CUDA-C, CUTLASS Todo el campo
ROCm + PyTorch B Sí (en su mayoría) hipBLAS, AITemplate Creciendo
JAX + XLA (TPU) A Vía torch_xla (B-) Pallas (nuevo) Comunidad JAX/investigación
Neuron SDK (Trainium) B- Vía torch-neuronx Limitado Solo AWS
SynapseAI (Gaudi) B- Vía habana_frameworks Limitado Intel + clientes selectos
Cerebras SDK C Parcial Solo vendor Pequeño
Groq SDK C Solo flujo compilado Solo vendor Pequeño

El patrón: el moat de NVIDIA es el software, no el hardware. ROCm y los stacks de los cloud-vendors están cerrando la brecha pero la ventaja es de años.

Imagen estratégica para 2026

  • Default para nuevos proyectos de entrenamiento: NVIDIA H100/H200/B200. El riesgo de software es el más bajo. El suministro es la restricción.
  • Si memoria > cómputo importa: AMD MI300X o H200, dependiendo de la tolerancia al stack.
  • Si vives en JAX: TPU v5p. La historia es sharding nativo del compilador.
  • Si vives en AWS a escala y quieres bajo coste: Trainium 2.
  • Si necesitas latencia de inferencia single-stream: Groq LPU.
  • Si quieres apostar por un retador: Gaudi 3 tiene una economía interesante, la historia de networking es genuinamente diferenciada.

Para una entrevista, tener una tesis sobre el panorama — no solo una lista — es lo que distingue a un candidato senior. Prepárate para defender "yo entrenaría esto en X porque Y, aunque Z."

Enlaces cruzados

Referencias

  • NVIDIA Blackwell Architecture Technical Brief, 2024.
  • AMD Instinct MI300X Datasheet y CDNA 3 whitepaper, 2023.
  • Intel Gaudi 3 Whitepaper, 2024.
  • Anuncio de Google TPU v5p y TPU v4: An Optically Reconfigurable Supercomputer (Jouppi et al. 2023).
  • Documentación de AWS Trainium 2; keynote de AWS re:Invent 2024.
  • Cerebras WSE-3 Whitepaper, 2024.
  • Groq LPU Architecture Brief, 2024.
  • Resultados MLPerf Training v4.0 e Inference v4.1, 2024.
  • SemiAnalysis, Accelerator Landscape, cobertura continua 2024-2026.