Skip to content

English · Español

Fase 20 — Quizzes (espejo)

🇪🇸 Las preguntas canónicas viven en data/quizzes/phase-20-evaluation-harness.yaml.


q-20-01 — Por qué la PPL sola engaña a escala §A13

Prompt (EN): Which of the following is the strongest reason perplexity alone is a weak progress indicator on the §A13 corpus?

  • A. The corpus is bilingual, and PPL is not defined for bilingual data.
  • B. The conjugation-critical tokens are a small subset of the vocabulary; PPL averages over all tokens and dilutes the signal.
  • C. PPL is unbounded above; small models cannot achieve low PPL.
  • D. The model is too small to assign meaningful probabilities.

Correcta: B. La PPL es la media geométrica de las log-probs negativas de todos los tokens; los tokens de conjugación son minoría. Un modelo que clava los tokens de relleno y falla en la conjugación puede aun así reportar una PPL "buena".


q-20-02 — Fallo de train-como-eval

Prompt (EN): A learner reports CCR-irregular = 87% on the §A13 grammar tutor. Investigation shows the eval was run on data/train/train.jsonl. What conclusion is appropriate?

  • A. The model has generalized excellently to irregular conjugation.
  • B. The reported number is a measure of memorization, not generalization, and is uninformative for ship/no-ship decisions.
  • C. The model overfitted to held-out data.
  • D. The eval harness is broken and the model's true CCR is unknown.

Correcta: B. Evaluar sobre train mide memorización. El harness de evaluación sigue funcionando correctamente; el número es significativo en un sentido estrecho (capacidad de memorización), simplemente no para la decisión de deployment.


q-20-03 — Métricas compañeras de la PPL

Prompt (EN): Select every metric that is a useful companion to PPL for the §A13 grammar tutor.

  • A. Conjugation-correctness rate (CCR) sliced by regularity.
  • B. Token-level conditional accuracy restricted to the conjugation-critical alphabet.
  • C. Bilingual alignment accuracy.
  • D. Wall-clock training time.

Correcta: A, B, C. El tiempo de reloj de pared es una métrica operacional, no de calidad — útil para presupuestar, no para evaluar la salida del modelo.


q-20-04 — Leak en probes

Prompt (EN): In one or two sentences, describe a probe-level data leak that is not caught by simply ensuring train.jsonl and val.jsonl are disjoint files.

Respuesta libre. Menciones esperadas: prefijo de prompt en train; solapamiento de texto superficial; forma verbal vista previamente; la construcción de probes debe evitar prefijos que aparezcan en train.


q-20-05 — Calibración vs accuracy

Prompt (EN): A model reports CCR = 80% but the average confidence (softmax max-prob) on its predictions is 99%. What kind of calibration does this indicate?

  • A. Well-calibrated.
  • B. Under-confident.
  • C. Over-confident.
  • D. Cannot determine from this data.

Correcta: C. Sobreconfiado: el modelo asigna 99% a su argmax pero acierta solo el 80% de las veces. El expected calibration error es grande. El 02-calibration-and-adversarial.md de la Fase 20 cubre la mitigación.