English · Español
04 — Economía del datacenter: potencia, PUE, $/MWh, CapEx vs OpEx¶
🇪🇸 Un modelo frontera no cuesta lo que cuesta su código. Cuesta los megavatios de su entrenamiento. Aquí están los números.
La tesis¶
Cuando un ingeniero de infra de Anthropic dice "gastamos X en este entrenamiento", aproximadamente el 60% de X es electricidad [fuente: Patterson et al. 2021; modelos de coste de SemiAnalysis 2024]. La amortización del hardware, el networking y los salarios de ingeniería son el resto. Esta página es la aritmética.
Potencia por GPU¶
| Chip | TDP | Potencia de entrenamiento sostenida (típica) |
|---|---|---|
| A100 SXM4 | 400 W | ~350 W |
| H100 SXM5 | 700 W | ~650 W |
| H200 SXM | 700 W | ~650 W |
| B200 | 1000 W | ~900 W |
| MI300X | 750 W | ~700 W |
| TPU v5p | ~450 W [no confirmado públicamente] | — |
[fuente: NVIDIA H100/H200/B200 datasheets; AMD MI300X datasheet 2023]
Memoriza: H100 = 700 W, B200 = 1000 W.
Del TDP del chip a la potencia de la instalación¶
No puedes cablear GPUs en aislamiento. La pila completa:
- Potencia de GPU (el número titular).
- CPU + placa base del sistema por nodo: ~300-500 W para un host DGX.
- Switches de red y NICs: ~5-10% de la carga IT.
- Almacenamiento: pequeño para entrenamiento (checkpoints cacheados).
- Refrigeración: ~15-30% adicional de consumo. Esto es lo que captura el PUE.
Para un nodo DGX de 8× H100:
- 8 × 700 W (GPU) + 500 W (host) + 100 W (networking) ≈ 6.2 kW carga IT.
- Con PUE 1.2: ~7.4 kW consumo total de la instalación por nodo.
PUE — Power Usage Effectiveness¶
Benchmarks:
| Tier | PUE | Ejemplo |
|---|---|---|
| Hyperscale, moderno | 1.10-1.15 | Sitios más recientes de Google, Meta |
| Hyperscale, promedio | 1.20-1.30 | AWS, Azure típico |
| Colo enterprise | 1.50-1.80 | Instalaciones más antiguas |
| Peor caso (más antiguo, clima caluroso) | 2.0+ | Promedio histórico de la industria |
[fuente: Uptime Institute Global Data Center Survey 2024; PUE publicado por Google ≈ 1.10 en la flota]
Para matemática de entrevista, usa PUE = 1.2 salvo que te digan otra cosa. Es el default hyperscale moderno.
El cluster de 1024 GPUs, en megavatios¶
- Potencia de GPU: 1024 × 700 W = 716.8 kW.
- Más hosts/networking: ~75 kW (10%) → ~792 kW carga IT.
- Más refrigeración a PUE 1.2: 792 × 1.2 ≈ 950 kW instalación ≈ 1 MW.
Un "cluster de 1 MW" es un cluster de 1024 H100, a primer orden. Memoriza este escalado.
¿Un entrenamiento frontier en 25.000 H100s? ~25 MW — comparable a un pueblo pequeño.
$/MWh — la factura de electricidad¶
| Región | $/MWh industrial | $/kWh |
|---|---|---|
| US Pacific NW (hidro barato) | $40-60 | $0.04-0.06 |
| Promedio US | $80-100 | $0.08-0.10 |
| US Bay Area / Noreste | $150-200 | $0.15-0.20 |
| Industrial UE (post-2022) | $100-180 | $0.10-0.18 |
| Islandia (geotérmica barata) | $50-70 | $0.05-0.07 |
[fuente: tarifas industriales de electricidad de US EIA 2024; Eurostat 2024]
Para matemática de entrevista, usa $0.10/kWh.
Coste de una corrida de 10 días en 1024 H100s¶
- Potencia de la instalación: 950 kW.
- Duración: 10 días = 240 h.
- Energía: 950 kW × 240 h = 228 MWh.
- Coste energético a $0.10/kWh: 228.000 × \(0.10 = **\)22.800**.
- Coste energético a \(0.05/kWh (hidro barato): **\)11.400**.
Esto es solo electricidad. Alquiler en la nube ($3/H100-hora) para la misma corrida: 1024 × 240 × \(3 = **\)737.280**. La prima de la nube es enorme porque incluye amortización de hardware, networking, ops, margen.
Si posees el cluster, tu panorama de coste es distinto.
CapEx vs OpEx — ¿cuándo merece la pena poseer?¶
CapEx de un cluster de 1024 H100¶
- 1024 × GPUs H100 SXM5: ~\(30.000 cada una (retail 2024) → **\)30.7 M**.
- 128 × chasis DGX H100 (host + 8 GPU + 4 NVSwitch): retail ~\(350k, de los cuales ~\)240k son GPU. Añade ~$110k/chasis para el resto → 128 × \(110k = **\)14 M**.
- Fabric InfiniBand: switches NDR + cables para fat-tree de 1024 GPUs → ~$4-6 M.
- Almacenamiento + auxiliar: ~$2 M.
- Total: ~$50-55 M de CapEx.
Amortizado en 4 años (vida típica del acelerador)¶
- CapEx por año: ~$12.5 M.
- Energía por año (uso continuo): 8760 h × 950 kW × \(0.10/kWh = **\)832k/año**.
- Alquiler de datacenter + ops + overhead de refrigeración: ~$2 M/año (regla de pulgar).
- OpEx total anual + CapEx amortizado: ~$15.3 M/año para 1024 H100s corriendo 24/7.
Por GPU-hora: \(15.3M / (1024 × 8760) = **\)1.70 / GPU-hora**.
Compara con tarifa spot en nube ~$2.50-3/H100-hora (2024-2025). La prima de la nube es ~50-80%. Por esto los labs a escala (Anthropic, OpenAI, Meta, Microsoft) poseen o co-arriendan, no alquilan.
[fuente: modelo TCO de cluster de SemiAnalysis 2024; páginas de precios de AWS / RunPod / Lambda 2024]
Por qué el coste de un modelo frontier es 60% energía (a lo largo de su vida)¶
Toma un cluster de 25 MW, amortización a 4 años:
- Energía en 4 años (24/7): 25.000 kW × 8760 h × 4 × \(0.06/kWh (tarifa hyperscaler) ≈ **\)53 M**.
- Amortización de hardware (4 años): ~$1.2 B / 4 ≈ \(300 M/año × ... espera, el CapEx del cluster para 25.000 H100s es ~\)1.2 B. En 4 años: $300 M/año.
- La energía es una fracción menor en 4 años de uso ligero, pero para una única corrida intensa de entrenamiento (donde el cluster está al 100% de utilización durante meses), la energía domina el coste marginal.
El a menudo citado "60% energía" viene de amortizar el hardware en muchas corridas pero contar la energía como marginal a esta corrida. Los labs frontier corren sus clusters cerca del 100% — así que el cálculo marginal es el real, y la energía es la palanca mayor.
Tres números que un ingeniero de ML debería tener siempre listos¶
Para reflejo en entrevista:
- 1 H100 = 700 W TDP. Así que 1024 H100s ≈ 1 MW de potencia de GPU, 1.2 MW de potencia de instalación a PUE 1.2.
- 1 H100 ≈ 1 PF FP8 denso. Así que 1024 H100s ≈ 1 EFLOP de pico FP8 (MFU real ~40-50%).
- H100 en nube ≈ $3/hora spot, H100 propio ≈ $1.70/hora amortizado.
Qué significa esto estratégicamente¶
- Por qué los labs se co-localizan cerca de energía barata: un cluster frontier de 25 MW en Bay Area (\(0.18/kWh) vs. Pacific NW (\)0.05/kWh) es una diferencia de $50M/año. Microsoft, Meta y Google persiguen la hidroelectricidad barata.
- Por qué Anthropic habla del "compute" como un recurso estratégico: a escala frontier, poseer el cluster es estrictamente más barato que alquilar, si tienes el capital y la utilización para justificarlo. Las asociaciones de compute (p. ej. Anthropic + AWS Trainium) son en parte sobre precio y en parte sobre seguridad de suministro.
- Por qué FP8 / FP4 importan tanto: doblar los FLOPS efectivos sin doblar la potencia es un 2× gratis sobre el coste dominante.
Enlaces cruzados¶
02-h100-and-h200.md: el chip cuya potencia acabamos de presupuestar.05-the-accelerator-landscape-2026.md: comparación de eficiencia energética entre chips.- Fase 34 — Observabilidad y coste: contabilidad de coste por token en tiempo de inferencia.
Referencias¶
- Patterson D. et al. 2021, Carbon Emissions and Large Neural Network Training, arXiv:2104.10350.
- Patterson D. et al. 2022, The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink, IEEE Computer.
- SemiAnalysis, AI Datacenter TCO Model, 2024.
- Uptime Institute, Global Data Center Survey, 2024.
- US EIA, Electric Power Monthly, 2024.
- Google, Environmental Report 2024 (declaraciones de PUE).