English · Español

Fase 28 — Cuestionarios¶

Espejo legible de data/quizzes/phase-28-lora-qlora.yaml. Respuestas detrás de bloques <details>.

Fuente de verdad: data/quizzes/phase-28-lora-qlora.yaml.

q-28-01 — Conteo exacto de parámetros de LoRA en Mini-GPT¶

Para Mini-GPT (12 Linears: 8 de atención (64,64) + 2 FFN (256,64) + 2 FFN (64,256)), ¿cuántos parámetros entrenables de LoRA añade el rango (rank) r? Elige la fórmula en forma cerrada.

128 r
640 r
1024 r
2304 r

Respuesta

**Opción 4 (2304 r).** Suma: `8 × 128 r` (atención) + `2 × 320 r` (FFN W_1) + `2 × 320 r` (FFN W_2) = `1024 r + 640 r + 640 r = 2304 r`. Con `r=8`, son 18 432 params.

q-28-02 — Por qué inicializar B = 0¶

LoRA inicializa B = 0 y A ~ N(0, 1/r). ¿Por qué no inicializar ambos a un valor aleatorio pequeño?

La inicialización aleatoria hace inestable al optimizador.
La inicialización aleatoria hace que BA sea no nulo en el paso 0, desplazando al modelo del equilibrio preentrenado antes de que llegue cualquier señal de gradiente.
La inicialización aleatoria viola la restricción de rango r.
La inicialización aleatoria es incompatible con AdamW.

Respuesta

**Opción 2.** Con `B=0`, `BA=0` en el paso 0, así que el modelo equipado con LoRA se comporta de forma idéntica al base. Inicializar ambos aleatoriamente da un desplazamiento de partida no nulo sin justificación.

q-28-03 — ¿Qué obtienes con `rank = 0`?¶

Pones rank = 0 en LoRA sobre Mini-GPT. ¿Cuáles de las siguientes describen con precisión lo que le ocurre al entrenamiento?

El conteo de parámetros entrenables del módulo LoRA es cero.
El optimizador puede aún actualizar los pesos base congelados.
El producto B @ A es igual a la matriz cero porque un matmul vacío devuelve cero.
PyTorch lanza un error al construir el optimizador (lista de params vacía).

Respuesta

**Opciones 1, 3, 4.** `B` y `A` están vacías; `B @ A` es la matriz cero; no existen params entrenables de LoRA; AdamW da error con la lista de params vacía. Los pesos base permanecen congelados (freeze) por diseño.

q-28-04 — Por qué los modelos más grandes se benefician más de LoRA (libre)¶

La ratio entrenable LoRA-vs-full-FT para un Linear cuadrado de dim h con rango r es 2r/h. Para r=8 y h ∈ {64, 768, 4096}, ¿qué revela esta ratio sobre la eficiencia relativa de LoRA?

Respuesta

La ratio es **0.25 (Mini-GPT), 0.021 (GPT-2 small), 0.004 (LLaMA-7B)**. La eficiencia relativa de LoRA crece a medida que `h` crece porque `r` se mantiene fijo — los modelos **más grandes** se benefician más. Mini-GPT es lo bastante pequeño como para que la ratio sea poco favorecedora, motivo por el que lo usamos para pedagogía, no como aplicación real de LoRA.

q-28-05 — QLoRA = LoRA + ? (libre)¶

QLoRA combina LoRA con una técnica adicional que permite hacer fine-tuning de un modelo de 65B en una sola GPU de 48 GB. ¿Cuál es esa técnica, en una frase?

Respuesta

**Cuantización NF4 de 4 bits** de los pesos base congelados. La base vive en INT4 (con doble cuantización y estado del optimizador paginado); sólo el adaptador (adapter) LoRA queda en precisión completa y es entrenable.

Fase 28 — Cuestionarios¶

q-28-01 — Conteo exacto de parámetros de LoRA en Mini-GPT¶

q-28-02 — Por qué inicializar B = 0¶

q-28-03 — ¿Qué obtienes con rank = 0?¶

q-28-04 — Por qué los modelos más grandes se benefician más de LoRA (libre)¶

q-28-05 — QLoRA = LoRA + ? (libre)¶

q-28-03 — ¿Qué obtienes con `rank = 0`?¶