Skip to content

English · Español

Fase 11 — Quiz (espejo legible para humanos)

🇪🇸 Espejo legible del fichero canónico data/quizzes/phase-11-tokenization.yaml. El portal (Phase 41) consume el YAML.

Origen: data/quizzes/phase-11-tokenization.yaml.


q-11-01 — ¿Cuál es el objetivo central de entrenamiento de BPE? (única)

  • Un par aleatorio de símbolos adyacentes
  • El par de símbolos adyacentes más frecuente del corpus
  • El par con la mayor información mutua
  • El par que minimiza la perplejidad en un conjunto de retención

El BPE clásico (Sennrich et al. 2016) hace merge de forma codiciosa con el par más frecuente hasta que se alcanza el tope del vocabulario.


q-11-02 — ¿Qué propiedades son típicas del BPE a nivel de byte (byte-level)? (múltiple)

  • Puede codificar cualquier cadena UTF-8 sin tokens desconocidos
  • Necesita un token <UNK> aparte para caracteres no vistos
  • Su alfabeto base tiene 256 tokens
  • Los espacios en blanco siempre deben ser un único token

El BPE byte-level parte de los 256 bytes en bruto, así que toda cadena UTF-8 es representable; no se necesita <UNK>.


q-11-03 — ¿Por qué pre-tokenizar antes de BPE? (libre)

Se espera que contenga: word.

La pre-tokenización evita que los merges crucen fronteras de palabras/puntuación, preservando las unidades lingüísticas y estabilizando el crecimiento del vocabulario.


q-11-04 — Bytes frente a codepoints en el corpus bilingüe §A13 (única)

Un aprendiz entrena BPE byte-level con vocab=256 sobre el corpus bilingüe §A13. La media de tokens por palabra en inglés es 1.4; la media de tokens por palabra en español es 2.1. ¿Qué explica el desfase?

  • Las palabras en español son intrínsecamente más largas que las inglesas
  • Los caracteres acentuados cuestan 2 bytes cada uno, consumiendo merges para igualar la paridad
  • El corpus tiene más ejemplos en inglés que en español
  • BPE está fundamentalmente sesgado hacia las lenguas germánicas

ñ á é í ó ú ü ocupan cada uno 2 bytes UTF-8. Para convertirse en tokens únicos cada uno necesita un merge — 7 merges gastados en recuperar el alfabeto. Vocab=512 restaura la paridad.


q-11-05 — Encuentra el bug: tokenizer entrenado sobre el corpus equivocado (libre)

Se espera que contenga: spanish.

El texto en español se fragmenta en muchos más tokens que el inglés (el calendario de merges nunca aprendió bigramas españoles), dando secuencias más largas y un coste de atención mayor. Enlace cruzado: break/00-break-train-english-only-bpe.md.