Skip to content

English · Español

04 — Economía del datacenter: potencia, PUE, $/MWh, CapEx vs OpEx

🇪🇸 Un modelo frontera no cuesta lo que cuesta su código. Cuesta los megavatios de su entrenamiento. Aquí están los números.

La tesis

Cuando un ingeniero de infra de Anthropic dice "gastamos X en este entrenamiento", aproximadamente el 60% de X es electricidad [fuente: Patterson et al. 2021; modelos de coste de SemiAnalysis 2024]. La amortización del hardware, el networking y los salarios de ingeniería son el resto. Esta página es la aritmética.

Potencia por GPU

Chip TDP Potencia de entrenamiento sostenida (típica)
A100 SXM4 400 W ~350 W
H100 SXM5 700 W ~650 W
H200 SXM 700 W ~650 W
B200 1000 W ~900 W
MI300X 750 W ~700 W
TPU v5p ~450 W [no confirmado públicamente]

[fuente: NVIDIA H100/H200/B200 datasheets; AMD MI300X datasheet 2023]

Memoriza: H100 = 700 W, B200 = 1000 W.

Del TDP del chip a la potencia de la instalación

No puedes cablear GPUs en aislamiento. La pila completa:

  1. Potencia de GPU (el número titular).
  2. CPU + placa base del sistema por nodo: ~300-500 W para un host DGX.
  3. Switches de red y NICs: ~5-10% de la carga IT.
  4. Almacenamiento: pequeño para entrenamiento (checkpoints cacheados).
  5. Refrigeración: ~15-30% adicional de consumo. Esto es lo que captura el PUE.

Para un nodo DGX de 8× H100:

  • 8 × 700 W (GPU) + 500 W (host) + 100 W (networking) ≈ 6.2 kW carga IT.
  • Con PUE 1.2: ~7.4 kW consumo total de la instalación por nodo.

PUE — Power Usage Effectiveness

\[ \text{PUE} = \frac{\text{Potencia total de la instalación}}{\text{Potencia del equipo IT}} \]

Benchmarks:

Tier PUE Ejemplo
Hyperscale, moderno 1.10-1.15 Sitios más recientes de Google, Meta
Hyperscale, promedio 1.20-1.30 AWS, Azure típico
Colo enterprise 1.50-1.80 Instalaciones más antiguas
Peor caso (más antiguo, clima caluroso) 2.0+ Promedio histórico de la industria

[fuente: Uptime Institute Global Data Center Survey 2024; PUE publicado por Google ≈ 1.10 en la flota]

Para matemática de entrevista, usa PUE = 1.2 salvo que te digan otra cosa. Es el default hyperscale moderno.

El cluster de 1024 GPUs, en megavatios

  • Potencia de GPU: 1024 × 700 W = 716.8 kW.
  • Más hosts/networking: ~75 kW (10%) → ~792 kW carga IT.
  • Más refrigeración a PUE 1.2: 792 × 1.2 ≈ 950 kW instalación1 MW.

Un "cluster de 1 MW" es un cluster de 1024 H100, a primer orden. Memoriza este escalado.

¿Un entrenamiento frontier en 25.000 H100s? ~25 MW — comparable a un pueblo pequeño.

$/MWh — la factura de electricidad

Región $/MWh industrial $/kWh
US Pacific NW (hidro barato) $40-60 $0.04-0.06
Promedio US $80-100 $0.08-0.10
US Bay Area / Noreste $150-200 $0.15-0.20
Industrial UE (post-2022) $100-180 $0.10-0.18
Islandia (geotérmica barata) $50-70 $0.05-0.07

[fuente: tarifas industriales de electricidad de US EIA 2024; Eurostat 2024]

Para matemática de entrevista, usa $0.10/kWh.

Coste de una corrida de 10 días en 1024 H100s

  • Potencia de la instalación: 950 kW.
  • Duración: 10 días = 240 h.
  • Energía: 950 kW × 240 h = 228 MWh.
  • Coste energético a $0.10/kWh: 228.000 × \(0.10 = **\)22.800**.
  • Coste energético a \(0.05/kWh (hidro barato): **\)11.400**.

Esto es solo electricidad. Alquiler en la nube ($3/H100-hora) para la misma corrida: 1024 × 240 × \(3 = **\)737.280**. La prima de la nube es enorme porque incluye amortización de hardware, networking, ops, margen.

Si posees el cluster, tu panorama de coste es distinto.

CapEx vs OpEx — ¿cuándo merece la pena poseer?

CapEx de un cluster de 1024 H100

  • 1024 × GPUs H100 SXM5: ~\(30.000 cada una (retail 2024) → **\)30.7 M**.
  • 128 × chasis DGX H100 (host + 8 GPU + 4 NVSwitch): retail ~\(350k, de los cuales ~\)240k son GPU. Añade ~$110k/chasis para el resto → 128 × \(110k = **\)14 M**.
  • Fabric InfiniBand: switches NDR + cables para fat-tree de 1024 GPUs → ~$4-6 M.
  • Almacenamiento + auxiliar: ~$2 M.
  • Total: ~$50-55 M de CapEx.

Amortizado en 4 años (vida típica del acelerador)

  • CapEx por año: ~$12.5 M.
  • Energía por año (uso continuo): 8760 h × 950 kW × \(0.10/kWh = **\)832k/año**.
  • Alquiler de datacenter + ops + overhead de refrigeración: ~$2 M/año (regla de pulgar).
  • OpEx total anual + CapEx amortizado: ~$15.3 M/año para 1024 H100s corriendo 24/7.

Por GPU-hora: \(15.3M / (1024 × 8760) = **\)1.70 / GPU-hora**.

Compara con tarifa spot en nube ~$2.50-3/H100-hora (2024-2025). La prima de la nube es ~50-80%. Por esto los labs a escala (Anthropic, OpenAI, Meta, Microsoft) poseen o co-arriendan, no alquilan.

[fuente: modelo TCO de cluster de SemiAnalysis 2024; páginas de precios de AWS / RunPod / Lambda 2024]

Por qué el coste de un modelo frontier es 60% energía (a lo largo de su vida)

Toma un cluster de 25 MW, amortización a 4 años:

  • Energía en 4 años (24/7): 25.000 kW × 8760 h × 4 × \(0.06/kWh (tarifa hyperscaler) ≈ **\)53 M**.
  • Amortización de hardware (4 años): ~$1.2 B / 4 ≈ \(300 M/año × ... espera, el CapEx del cluster para 25.000 H100s es ~\)1.2 B. En 4 años: $300 M/año.
  • La energía es una fracción menor en 4 años de uso ligero, pero para una única corrida intensa de entrenamiento (donde el cluster está al 100% de utilización durante meses), la energía domina el coste marginal.

El a menudo citado "60% energía" viene de amortizar el hardware en muchas corridas pero contar la energía como marginal a esta corrida. Los labs frontier corren sus clusters cerca del 100% — así que el cálculo marginal es el real, y la energía es la palanca mayor.

Tres números que un ingeniero de ML debería tener siempre listos

Para reflejo en entrevista:

  1. 1 H100 = 700 W TDP. Así que 1024 H100s ≈ 1 MW de potencia de GPU, 1.2 MW de potencia de instalación a PUE 1.2.
  2. 1 H100 ≈ 1 PF FP8 denso. Así que 1024 H100s ≈ 1 EFLOP de pico FP8 (MFU real ~40-50%).
  3. H100 en nube ≈ $3/hora spot, H100 propio ≈ $1.70/hora amortizado.

Qué significa esto estratégicamente

  • Por qué los labs se co-localizan cerca de energía barata: un cluster frontier de 25 MW en Bay Area (\(0.18/kWh) vs. Pacific NW (\)0.05/kWh) es una diferencia de $50M/año. Microsoft, Meta y Google persiguen la hidroelectricidad barata.
  • Por qué Anthropic habla del "compute" como un recurso estratégico: a escala frontier, poseer el cluster es estrictamente más barato que alquilar, si tienes el capital y la utilización para justificarlo. Las asociaciones de compute (p. ej. Anthropic + AWS Trainium) son en parte sobre precio y en parte sobre seguridad de suministro.
  • Por qué FP8 / FP4 importan tanto: doblar los FLOPS efectivos sin doblar la potencia es un 2× gratis sobre el coste dominante.

Enlaces cruzados

Referencias

  • Patterson D. et al. 2021, Carbon Emissions and Large Neural Network Training, arXiv:2104.10350.
  • Patterson D. et al. 2022, The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink, IEEE Computer.
  • SemiAnalysis, AI Datacenter TCO Model, 2024.
  • Uptime Institute, Global Data Center Survey, 2024.
  • US EIA, Electric Power Monthly, 2024.
  • Google, Environmental Report 2024 (declaraciones de PUE).