Skip to content

English · Español

Fase 05 — Probabilidad y Teoría de la Información

Requiere: 04 — Cálculo y optimización para IA Enseña: probability · entropy · kl-divergence · cross-entropy · mle · perplexity Salta a cualquier capítulo desde el índice de referencia de fases.

Mapa del capítulo

🇪🇸 Toda red neuronal entrenada con cross_entropy_loss está optimizando información. Esta fase es donde aprendemos qué información, por qué esa función de pérdida, y cómo manejarla sin reventar la precisión numérica.

El mini-GPT que vamos a construir emite una distribución de probabilidad sobre ≈600 formas verbales (el corpus §A13). Entrenarlo significa hacer que esa distribución coincida con la verdad de referencia: la entropía cruzada (cross-entropy) como pérdida es el lenguaje que usaremos. La Fase 05 deriva ese lenguaje desde primeros principios para que nada del autograd de la Fase 07 ni del training loop de la Fase 18 resulte misterioso.

Lo que construyes aquí

  • Una comprensión funcional de probabilidad discreta sobre el vocabulario de formas verbales.
  • Derivaciones a mano de entropía, divergencia KL (KL divergence), entropía cruzada y MLE.
  • Un log_softmax y cross_entropy_logits numéricamente estables en NumPy.
  • Un análisis de calibración sobre un clasificador de juguete sobre los 5 tiempos.

Lo que esta fase NO cubre

  • Distribuciones continuas (diferido — la categórica es todo lo que necesitamos para el alcance microscópico §A13).
  • MCMC, inferencia variacional, deep learning bayesiano (fuera de alcance; los sistemas de aprendizaje automático (machine learning) usan estimaciones puntuales).
  • Labs de información mutua (mantenidos sólo en teoría aquí; emparejados con el sondeo en la Fase 20).

Archivos

Consulta PHASE_05_PLAN.md en la raíz del repo para el plan completo.

Siguiente: theory/00-motivation.md

Lecturas recomendadas

Opcional — enriquece pero no es necesario para aprobar la fase.