English · Español

Fase 30 — Quizzes¶

Espejo legible de data/quizzes/phase-30-structured-generation.yaml.

Fuente de verdad: data/quizzes/phase-30-structured-generation.yaml.

q-30-01 — Cuándo una máscara regex es incorrecta¶

Quieres que el modelo emita una expresión de paréntesis balanceados con profundidad de anidamiento arbitraria. ¿Por qué una máscara regex es la herramienta equivocada, incluso con patrones cuidadosamente diseñados?

La compilación de FSM regex es demasiado lenta.
Los paréntesis balanceados no son un lenguaje regular — el lema de bombeo lo descarta — así que ningún FSM acepta el lenguaje completo.
Las máscaras regex consumen demasiada VRAM durante la decodificación.
Regex no puede codificar los anclajes de inicio/fin de string necesarios.

Respuesta

**Opción 2.** Los paréntesis balanceados son el ejemplo canónico de CFG-pero-no-regular. Un FSM finito no puede contar profundidad de anidamiento arbitraria; solo un parser basado en pila puede. Los regex de profundidad acotada aceptan el lenguaje equivocado.

q-30-02 — Coste de rederivar la máscara JSON en cada token¶

Una implementación ingenua rederiva el conjunto de tokens permitidos por JSON Schema en cada paso de decodificación. ¿Aproximadamente cuánto ralentiza esto la decodificación comparado con un autómata JSON Schema precompilado?

≈ 1% más lento
≈ 10% más lento
≈ 200% más lento (~3× la latencia total de decode)
≈ 10× más lento

Respuesta

**Opción 3 (~200%).** Coste de máscara por token ~5 ms naíf vs ~0,05 ms precompilado. Al ritmo de ~250 tok/s de Mini-GPT, eso es aproximadamente +200% de sobrecoste — mayor que el propio decoder. Precompila.

q-30-03 — Familia de máscara por caso de uso¶

Empareja cada especificación de salida con la familia de máscara mínima correcta: (a) código postal de 5 dígitos; (b) S-expresiones recursivas; © objeto JSON con campos tipados; (d) una de 600 formas verbales enumeradas (lista plana).

(a) → regex
(b) → CFG
© → JSON Schema
(d) → regex (gran alternación), o enum JSON Schema si el verbo va dentro de JSON

Respuesta

**Los cuatro emparejamientos.** Cada uno es la elección correcta de menor expresividad. Nota (d): incluso 600 alternaciones siguen siendo regulares, así que un FSM regex es lo mínimo — a menos que el verbo esté envuelto en JSON.

q-30-04 — Por qué el alcance §A13 se beneficia de restricciones enum (gratis)¶

El tutor de gramática §A13 devuelve JSON con un campo verb. ¿Por qué usar un enum JSON Schema de los 20 verbos permitidos es estrictamente mejor que dejar que el modelo emita un string de formato libre para el verbo?

Respuesta

El `enum` impone mecánicamente el invariante de **alcance** microscópico de §A13 — el modelo no puede alucinar un verbo fuera de los 20 (p. ej., "drink"). Sin el enum, la garantía de alcance depende de la distribución de entrenamiento del modelo, que es empírica, no estructural.

q-30-05 — Modo de fallo sin la máscara¶

Desactivas la máscara JSON Schema en la CLI de conjugación y ejecutas 50 muestras. ¿Cuáles de las siguientes son categorías de fallo probables que observarías?

JSON válido con nombres de clave equivocados (p. ej., español en vez de spanish)
JSON con coma final (inválido por json.loads)
Explicaciones en prosa / markdown en vez de JSON
Todas las salidas son perfectas porque Mini-GPT fue entrenado en JSON

Respuesta

**Opciones 1, 2, 3.** Mini-GPT fue entrenado en texto de gramática §A13, no en datos cargados de JSON; la salida de formato libre produce una mezcla de JSON fuera de esquema, JSON roto, y prosa. La máscara hace los tres imposibles.