English · Español

04 — Economía del datacenter: potencia, PUE, $/MWh, CapEx vs OpEx¶

🇪🇸 Un modelo frontera no cuesta lo que cuesta su código. Cuesta los megavatios de su entrenamiento. Aquí están los números.

La tesis¶

Cuando un ingeniero de infra de Anthropic dice "gastamos X en este entrenamiento", aproximadamente el 60% de X es electricidad [fuente: Patterson et al. 2021; modelos de coste de SemiAnalysis 2024]. La amortización del hardware, el networking y los salarios de ingeniería son el resto. Esta página es la aritmética.

Potencia por GPU¶

Chip	TDP	Potencia de entrenamiento sostenida (típica)
A100 SXM4	400 W	~350 W
H100 SXM5	700 W	~650 W
H200 SXM	700 W	~650 W
B200	1000 W	~900 W
MI300X	750 W	~700 W
TPU v5p	~450 W [no confirmado públicamente]	—

[fuente: NVIDIA H100/H200/B200 datasheets; AMD MI300X datasheet 2023]

Memoriza: H100 = 700 W, B200 = 1000 W.

Del TDP del chip a la potencia de la instalación¶

No puedes cablear GPUs en aislamiento. La pila completa:

Potencia de GPU (el número titular).
CPU + placa base del sistema por nodo: ~300-500 W para un host DGX.
Switches de red y NICs: ~5-10% de la carga IT.
Almacenamiento: pequeño para entrenamiento (checkpoints cacheados).
Refrigeración: ~15-30% adicional de consumo. Esto es lo que captura el PUE.

Para un nodo DGX de 8× H100:

8 × 700 W (GPU) + 500 W (host) + 100 W (networking) ≈ 6.2 kW carga IT.
Con PUE 1.2: ~7.4 kW consumo total de la instalación por nodo.

PUE — Power Usage Effectiveness¶

\[ \text{PUE} = \frac{\text{Potencia total de la instalación}}{\text{Potencia del equipo IT}} \]

Benchmarks:

Tier	PUE	Ejemplo
Hyperscale, moderno	1.10-1.15	Sitios más recientes de Google, Meta
Hyperscale, promedio	1.20-1.30	AWS, Azure típico
Colo enterprise	1.50-1.80	Instalaciones más antiguas
Peor caso (más antiguo, clima caluroso)	2.0+	Promedio histórico de la industria

[fuente: Uptime Institute Global Data Center Survey 2024; PUE publicado por Google ≈ 1.10 en la flota]

Para matemática de entrevista, usa PUE = 1.2 salvo que te digan otra cosa. Es el default hyperscale moderno.

El cluster de 1024 GPUs, en megavatios¶

Potencia de GPU: 1024 × 700 W = 716.8 kW.
Más hosts/networking: ~75 kW (10%) → ~792 kW carga IT.
Más refrigeración a PUE 1.2: 792 × 1.2 ≈ 950 kW instalación ≈ 1 MW.

Un "cluster de 1 MW" es un cluster de 1024 H100, a primer orden. Memoriza este escalado.

¿Un entrenamiento frontier en 25.000 H100s? ~25 MW — comparable a un pueblo pequeño.

$/MWh — la factura de electricidad¶

Región	$/MWh industrial	$/kWh
US Pacific NW (hidro barato)	$40-60	$0.04-0.06
Promedio US	$80-100	$0.08-0.10
US Bay Area / Noreste	$150-200	$0.15-0.20
Industrial UE (post-2022)	$100-180	$0.10-0.18
Islandia (geotérmica barata)	$50-70	$0.05-0.07

[fuente: tarifas industriales de electricidad de US EIA 2024; Eurostat 2024]

Para matemática de entrevista, usa $0.10/kWh.

Coste de una corrida de 10 días en 1024 H100s¶

Potencia de la instalación: 950 kW.
Duración: 10 días = 240 h.
Energía: 950 kW × 240 h = 228 MWh.
Coste energético a $0.10/kWh: 228.000 × $0.10 = **$22.800**.
Coste energético a $0.05/kWh (hidro barato): **$11.400**.

Esto es solo electricidad. Alquiler en la nube ($3/H100-hora) para la misma corrida: 1024 × 240 × $3 = **$737.280**. La prima de la nube es enorme porque incluye amortización de hardware, networking, ops, margen.

Si posees el cluster, tu panorama de coste es distinto.

CapEx vs OpEx — ¿cuándo merece la pena poseer?¶

CapEx de un cluster de 1024 H100¶

1024 × GPUs H100 SXM5: ~$30.000 cada una (retail 2024) → **$30.7 M**.
128 × chasis DGX H100 (host + 8 GPU + 4 NVSwitch): retail ~$350k, de los cuales ~$240k son GPU. Añade ~$110k/chasis para el resto → 128 × $110k = **$14 M**.
Fabric InfiniBand: switches NDR + cables para fat-tree de 1024 GPUs → ~$4-6 M.
Almacenamiento + auxiliar: ~$2 M.
Total: ~$50-55 M de CapEx.

Amortizado en 4 años (vida típica del acelerador)¶

CapEx por año: ~$12.5 M.
Energía por año (uso continuo): 8760 h × 950 kW × $0.10/kWh = **$832k/año**.
Alquiler de datacenter + ops + overhead de refrigeración: ~$2 M/año (regla de pulgar).
OpEx total anual + CapEx amortizado: ~$15.3 M/año para 1024 H100s corriendo 24/7.

Por GPU-hora: $15.3M / (1024 × 8760) = **$1.70 / GPU-hora**.

Compara con tarifa spot en nube ~$2.50-3/H100-hora (2024-2025). La prima de la nube es ~50-80%. Por esto los labs a escala (Anthropic, OpenAI, Meta, Microsoft) poseen o co-arriendan, no alquilan.

[fuente: modelo TCO de cluster de SemiAnalysis 2024; páginas de precios de AWS / RunPod / Lambda 2024]

Por qué el coste de un modelo frontier es 60% energía (a lo largo de su vida)¶

Toma un cluster de 25 MW, amortización a 4 años:

Energía en 4 años (24/7): 25.000 kW × 8760 h × 4 × $0.06/kWh (tarifa hyperscaler) ≈ **$53 M**.
Amortización de hardware (4 años): ~$1.2 B / 4 ≈ $300 M/año × ... espera, el CapEx del cluster para 25.000 H100s es ~$1.2 B. En 4 años: $300 M/año.
La energía es una fracción menor en 4 años de uso ligero, pero para una única corrida intensa de entrenamiento (donde el cluster está al 100% de utilización durante meses), la energía domina el coste marginal.

El a menudo citado "60% energía" viene de amortizar el hardware en muchas corridas pero contar la energía como marginal a esta corrida. Los labs frontier corren sus clusters cerca del 100% — así que el cálculo marginal es el real, y la energía es la palanca mayor.

Tres números que un ingeniero de ML debería tener siempre listos¶

Para reflejo en entrevista:

1 H100 = 700 W TDP. Así que 1024 H100s ≈ 1 MW de potencia de GPU, 1.2 MW de potencia de instalación a PUE 1.2.
1 H100 ≈ 1 PF FP8 denso. Así que 1024 H100s ≈ 1 EFLOP de pico FP8 (MFU real ~40-50%).
H100 en nube ≈ $3/hora spot, H100 propio ≈ $1.70/hora amortizado.

Qué significa esto estratégicamente¶

Por qué los labs se co-localizan cerca de energía barata: un cluster frontier de 25 MW en Bay Area ($0.18/kWh) vs. Pacific NW ($0.05/kWh) es una diferencia de $50M/año. Microsoft, Meta y Google persiguen la hidroelectricidad barata.
Por qué Anthropic habla del "compute" como un recurso estratégico: a escala frontier, poseer el cluster es estrictamente más barato que alquilar, si tienes el capital y la utilización para justificarlo. Las asociaciones de compute (p. ej. Anthropic + AWS Trainium) son en parte sobre precio y en parte sobre seguridad de suministro.
Por qué FP8 / FP4 importan tanto: doblar los FLOPS efectivos sin doblar la potencia es un 2× gratis sobre el coste dominante.

Enlaces cruzados¶

02-h100-and-h200.md: el chip cuya potencia acabamos de presupuestar.
05-the-accelerator-landscape-2026.md: comparación de eficiencia energética entre chips.
Fase 34 — Observabilidad y coste: contabilidad de coste por token en tiempo de inferencia.

Referencias¶

Patterson D. et al. 2021, Carbon Emissions and Large Neural Network Training, arXiv:2104.10350.
Patterson D. et al. 2022, The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink, IEEE Computer.
SemiAnalysis, AI Datacenter TCO Model, 2024.
Uptime Institute, Global Data Center Survey, 2024.
US EIA, Electric Power Monthly, 2024.
Google, Environmental Report 2024 (declaraciones de PUE).