English · Español

Fase 29 — Cuestionarios¶

Espejo legible de data/quizzes/phase-29-rag.yaml. Respuestas detrás de bloques <details>.

Fuente de verdad: data/quizzes/phase-29-rag.yaml.

q-29-01 — Por qué RAG en lugar de hacer fine-tune de los hechos (libre)¶

Un compañero de equipo propone "solo haz fine-tune de Mini-GPT sobre la tabla de verbos irregulares hasta que la memorice; no necesitamos RAG." Lista dos razones por las que esto es la elección equivocada a escala, aunque pueda funcionar sobre la KB §A13.

Respuesta

(a) **Actualizaciones**: cada cambio en la KB requiere volver a hacer fine-tune. (b) **Citas**: el modelo no puede decir *qué* hecho usó. A escala (millones de documentos, actualizaciones semanales), RAG domina; el fine-tuning es para comportamiento, no para hechos.

q-29-02 — Por qué FlatVectorStore en lugar de HNSW para la Fase 29¶

La KB §A13 tiene ~50 chunks. Usamos búsqueda coseno por fuerza bruta (FlatVectorStore), no HNSW. ¿Cuál es la escala asintótica de cruce por encima de la cual un índice basado en árbol se vuelve más rápido que el escaneo lineal?

≈ 100 vectores
≈ 1 000 vectores
≈ 10⁴ vectores
≈ 10⁶ vectores

Respuesta

**Opción 3 (≈ 10⁴).** HNSW paga su factor log + overhead por nodo por encima de ~10⁴ vectores. Por debajo de eso, la fuerza bruta sobre arrays contiguos de numpy gana en rendimiento bruto y es mucho más fácil de depurar.

q-29-03 — La constante de Reciprocal Rank Fusion (libre)¶

RRF combina dos listas rankeadas con RRF(c) = Σ 1/(60 + rank(c)). ¿Por qué 60 en concreto, y qué cambiaría con una constante mucho más pequeña como 5?

Respuesta

**60** es el valor por defecto empíricamente robusto de Cormack et al. que amortigua la diferencia entre los rangos top-1 y top-5. **5** haría que las contribuciones del rango 1 dominaran, amplificando los errores de una sola fuente. Constantes mucho mayores aplanan la fusión, haciéndola menos discriminativa.

q-29-04 — Lo que cuesta saltarse la recuperación¶

Ablacionas el retriever — rag_answer envía la consulta cruda a Mini-GPT. ¿Qué síntomas deberías observar en el conjunto de eval de lookup de §A13?

La accuracy cae ≥ 30 puntos porcentuales.
La métrica de faithfulness cae a ~0 (nada que citar).
Mini-GPT regulariza los verbos irregulares (p. ej., 'writed' por 'wrote').
La latencia aumenta ≥ 10× (no hay recuperación que cortocircuitar).

Respuesta

**Opciones 1, 2, 3.** Accuracy y faithfulness se desploman porque la memoria paramétrica es insuficiente. La latencia en realidad *disminuye* (no hay paso de retrieval) — el incentivo perverso que hace tentador saltarse la recuperación hasta que compruebas la corrección.

q-29-05 — Faithfulness ≠ accuracy (libre)¶

Define ambas métricas en una frase cada una, y luego da un escenario de ejemplo donde tendrías faithfulness alta Y accuracy baja.

Respuesta

**Faithfulness**: cada afirmación de la respuesta está respaldada por el contexto recuperado. **Accuracy**: la respuesta es correcta frente al ground truth. Ejemplo: un chunk en tu KB dice "the past simple of eat is `eated`" (una errata); el modelo reporta fielmente `eated` — faithfulness alta, accuracy baja. RAG solo es tan bueno como su KB.