English · Español
Fase 14 — Modelos de secuencia pre-transformer¶
Requiere: 13 — Embeddings y espacios de representación Enseña:
n-gram·rnn·lstm·vanishing-gradient·perplexity-baselinesSalta a cualquier capítulo desde el índice de referencia de fases.
Mapa del capítulo¶
Pre-escrito según A12; reorientado a la gramática de verbos en inglés según A13. Esta entrada de fase existe antes de que Borja empiece a estudiar. Los enunciados de teoría y de laboratorio son borradores estables; las soluciones se escriben justo a tiempo al abrir la fase.
🇪🇸 Antes de attention, qué había. Aquí vivimos —brevemente— en el mundo de los n-gramas y las RNN. Lo justo para tener una baseline real de perplejidad sobre el corpus de conjugaciones de verbos ingleses (Fase 12) que el transformer de Fases 17–18 tendrá que superar, y para sentir en los dedos por qué el gradiente se desvanece a través del tiempo.
Objetivo¶
Establecer la baseline que el Mini-GPT debe superar (Fase 17/18) y la intuición mecánica de por qué los modelos recurrentes perdieron la guerra arquitectónica. Al final de la Fase 14:
- Un número de perplejidad comprometido para un LM de n-grama sobre el corpus de gramática de verbos en inglés de la Fase 12.
- Un forward pass de RNN/GRU construido a mano en NumPy que Borja haya mirado lo suficiente como para sentir la recurrencia — aplicado al ejemplo canónico
I work, you work, he ___(predecirworks). - Un enunciado escrito y preciso de los dos modos de fallo de los modelos recurrentes en contextos largos (gradiente + cómputo en serie) — el puente a la Fase 15.
La Fase 14 es poco profunda a propósito. La línea de la especificación es "RNN, LSTM, GRU a nivel conceptual (no es necesario entrenar del todo)". La profundidad vive en la Fase 15 (attention) y la Fase 18 (bucle de entrenamiento).
Orden de lectura¶
theory/00-motivation.md— por qué existe esta fase; qué exactamente nos da que la Fase 15 luego desmontará.theory/01-ngram-models.md— MLE, suavizado, perplejidad. La baseline aburrida-pero-real sobre el corpus de gramática de verbos.theory/02-rnn-recurrence.md— RNN vanilla, GRU, LSTM como una familia de máquinas de estados. Derivada desde primeros principios, ilustrada sobre cadenas pronombre-sujeto → forma verbal.theory/03-vanishing-gradient.md— BPTT producto-de-Jacobianos; por qué los autovalores controlan el desvanecimiento/explosión; cómo LSTM/GRU parchean (pero no resuelven) el problema.lab/00-tokenize-corpus.md— conectar las salidas de las Fases 11/12 como entradas a esta fase.lab/01-ngram-baseline.md— entrenar y comprometer el número de perplejidad.lab/02-rnn-by-hand.md— forward de RNN en NumPy sobreI work, you work, he ___. Imprimir cada estado oculto. Rankear las 5 predicciones top del siguiente token del modelo.lab/03-vanishing-empirical.md— medir la caída del gradiente a lo largo de 50 pasos en una cadena larga de acuerdo sujeto-verbo; demostrar el fallo.
solutions/ está vacío durante el pre-escrito — se rellena al abrir la fase tras las decisiones de API de fases previas de Borja (tokenizer de Fase 11, split del corpus de Fase 12).
Definición de hecho (DoD)¶
Véase PHASE_14_PLAN.md §6. Brevemente:
- Número de perplejidad del n-grama (3-grama y 5-grama) comprometido en
experiments/14-ngram-baseline/manifest.json. - Forward pass de RNN comprometido; estados ocultos intermedios impresos para el prompt canónico de completado de conjugación.
- Gráfico empírico de caída del gradiente desvaneciente comprometido.
- Borja sabe articular, por escrito, las dos razones distintas por las que las RNN perdieron frente a los transformers (gradiente + paralelismo).
Lo que esta fase intencionadamente NO cubre¶
- Entrenar RNNs. La especificación es "no es necesario entrenar del todo". Solo forward.
- Seq2seq. El encoder-decoder está implícito en la cobertura de cross-attention de la Fase 15, sin fase aparte.
- Attention. Eso es la Fase 15 — se mantiene separado para que el contraste sea nítido.
- Comparación de referencia con PyTorch. No hay PyTorch en la Fase 14 (anti-objetivo §10). La RNN de NumPy de Borja se contrasta consigo misma, no contra un framework.
- Revivificaciones recurrentes modernas (Mamba, S4, RWKV). Territorio de la Fase 36 (arquitecturas de frontera).
- Suavizado Kneser-Ney. Mencionado de pasada. Add-\(\alpha\) es suficiente para la baseline.
- Personas en plural (
we,you-pl,they). Según A13, los plurales se aplazan. Los ejemplos de conjugación de la Fase 14 se quedan en 1ª-sg / 2ª-sg / 3ª-sg.
El alcance de la Fase 14 es la baseline histórica y su modo mecánico de fallo. Nada más — el objetivo es que la derivación de attention de la Fase 15 aterrice sabiendo qué reemplazó.
Lecturas recomendadas¶
Opcional — enriquece pero no es necesario para aprobar la fase.
- 📄 Long Short-Term Memory — Hochreiter & Schmidhuber · 1997. la recurrencia que attention acabó reemplazando.
- 📄 A Neural Probabilistic Language Model — Bengio et al. · 2003. el primer LM neuronal — el baseline que superas.