English · Español
Fase 20 — Quizzes (espejo)¶
🇪🇸 Las preguntas canónicas viven en
data/quizzes/phase-20-evaluation-harness.yaml.
q-20-01 — Por qué la PPL sola engaña a escala §A13¶
Prompt (EN): Which of the following is the strongest reason perplexity alone is a weak progress indicator on the §A13 corpus?
- A. The corpus is bilingual, and PPL is not defined for bilingual data.
- B. The conjugation-critical tokens are a small subset of the vocabulary; PPL averages over all tokens and dilutes the signal.
- C. PPL is unbounded above; small models cannot achieve low PPL.
- D. The model is too small to assign meaningful probabilities.
Correcta: B. La PPL es la media geométrica de las log-probs negativas de todos los tokens; los tokens de conjugación son minoría. Un modelo que clava los tokens de relleno y falla en la conjugación puede aun así reportar una PPL "buena".
q-20-02 — Fallo de train-como-eval¶
Prompt (EN): A learner reports CCR-irregular = 87% on the §A13 grammar tutor. Investigation shows the eval was run on data/train/train.jsonl. What conclusion is appropriate?
- A. The model has generalized excellently to irregular conjugation.
- B. The reported number is a measure of memorization, not generalization, and is uninformative for ship/no-ship decisions.
- C. The model overfitted to held-out data.
- D. The eval harness is broken and the model's true CCR is unknown.
Correcta: B. Evaluar sobre train mide memorización. El harness de evaluación sigue funcionando correctamente; el número es significativo en un sentido estrecho (capacidad de memorización), simplemente no para la decisión de deployment.
q-20-03 — Métricas compañeras de la PPL¶
Prompt (EN): Select every metric that is a useful companion to PPL for the §A13 grammar tutor.
- A. Conjugation-correctness rate (CCR) sliced by regularity.
- B. Token-level conditional accuracy restricted to the conjugation-critical alphabet.
- C. Bilingual alignment accuracy.
- D. Wall-clock training time.
Correcta: A, B, C. El tiempo de reloj de pared es una métrica operacional, no de calidad — útil para presupuestar, no para evaluar la salida del modelo.
q-20-04 — Leak en probes¶
Prompt (EN): In one or two sentences, describe a probe-level data leak that is not caught by simply ensuring train.jsonl and val.jsonl are disjoint files.
Respuesta libre. Menciones esperadas: prefijo de prompt en train; solapamiento de texto superficial; forma verbal vista previamente; la construcción de probes debe evitar prefijos que aparezcan en train.
q-20-05 — Calibración vs accuracy¶
Prompt (EN): A model reports CCR = 80% but the average confidence (softmax max-prob) on its predictions is 99%. What kind of calibration does this indicate?
- A. Well-calibrated.
- B. Under-confident.
- C. Over-confident.
- D. Cannot determine from this data.
Correcta: C. Sobreconfiado: el modelo asigna 99% a su argmax pero acierta solo el 80% de las veces. El expected calibration error es grande. El 02-calibration-and-adversarial.md de la Fase 20 cubre la mitigación.