English · Español
Fase 28 — Cuestionarios¶
Espejo legible de
data/quizzes/phase-28-lora-qlora.yaml. Respuestas detrás de bloques<details>.
Fuente de verdad: data/quizzes/phase-28-lora-qlora.yaml.
q-28-01 — Conteo exacto de parámetros de LoRA en Mini-GPT¶
Para Mini-GPT (12 Linears: 8 de atención (64,64) + 2 FFN (256,64) + 2 FFN (64,256)), ¿cuántos parámetros entrenables de LoRA añade el rango (rank) r? Elige la fórmula en forma cerrada.
- 128 r
- 640 r
- 1024 r
- 2304 r
Respuesta
**Opción 4 (2304 r).** Suma: `8 × 128 r` (atención) + `2 × 320 r` (FFN W_1) + `2 × 320 r` (FFN W_2) = `1024 r + 640 r + 640 r = 2304 r`. Con `r=8`, son 18 432 params.q-28-02 — Por qué inicializar B = 0¶
LoRA inicializa B = 0 y A ~ N(0, 1/r). ¿Por qué no inicializar ambos a un valor aleatorio pequeño?
- La inicialización aleatoria hace inestable al optimizador.
- La inicialización aleatoria hace que BA sea no nulo en el paso 0, desplazando al modelo del equilibrio preentrenado antes de que llegue cualquier señal de gradiente.
- La inicialización aleatoria viola la restricción de rango r.
- La inicialización aleatoria es incompatible con AdamW.
Respuesta
**Opción 2.** Con `B=0`, `BA=0` en el paso 0, así que el modelo equipado con LoRA se comporta de forma idéntica al base. Inicializar ambos aleatoriamente da un desplazamiento de partida no nulo sin justificación.q-28-03 — ¿Qué obtienes con rank = 0?¶
Pones rank = 0 en LoRA sobre Mini-GPT. ¿Cuáles de las siguientes describen con precisión lo que le ocurre al entrenamiento?
- El conteo de parámetros entrenables del módulo LoRA es cero.
- El optimizador puede aún actualizar los pesos base congelados.
- El producto
B @ Aes igual a la matriz cero porque un matmul vacío devuelve cero. - PyTorch lanza un error al construir el optimizador (lista de params vacía).
Respuesta
**Opciones 1, 3, 4.** `B` y `A` están vacías; `B @ A` es la matriz cero; no existen params entrenables de LoRA; AdamW da error con la lista de params vacía. Los pesos base permanecen congelados (freeze) por diseño.q-28-04 — Por qué los modelos más grandes se benefician más de LoRA (libre)¶
La ratio entrenable LoRA-vs-full-FT para un Linear cuadrado de dim h con rango r es 2r/h. Para r=8 y h ∈ {64, 768, 4096}, ¿qué revela esta ratio sobre la eficiencia relativa de LoRA?
Respuesta
La ratio es **0.25 (Mini-GPT), 0.021 (GPT-2 small), 0.004 (LLaMA-7B)**. La eficiencia relativa de LoRA crece a medida que `h` crece porque `r` se mantiene fijo — los modelos **más grandes** se benefician más. Mini-GPT es lo bastante pequeño como para que la ratio sea poco favorecedora, motivo por el que lo usamos para pedagogía, no como aplicación real de LoRA.q-28-05 — QLoRA = LoRA + ? (libre)¶
QLoRA combina LoRA con una técnica adicional que permite hacer fine-tuning de un modelo de 65B en una sola GPU de 48 GB. ¿Cuál es esa técnica, en una frase?