English · Español

Fase 32 — Cuestionarios¶

🇪🇸 Espejo legible de data/quizzes/phase-32-agents.yaml.

Fuente de verdad: data/quizzes/phase-32-agents.yaml.

q-32-01 — Los cinco estados del bucle del tutor de gramática §A13 (libre)¶

En orden, nombra los cinco estados del bucle del agente tutor de gramática §A13 e indica cuál es el único arco de salida hacia una respuesta final.

Respuesta

**`observe → reason → tool_call → observe → … → answer`**. La transición `reason → answer` es el único arco terminal de éxito; el terminal de fallo es la ruta de cap-excedido que devuelve el mensaje de fallback.

q-32-02 — Por qué los caps son innegociables (libre)¶

Tu colega sugiere quitar max_turns porque "el LLM sabrá cuándo parar". Refútalo en dos frases.

Respuesta

Los LLMs están entrenados para ser útiles, lo que en entradas inciertas se traduce en "llamar a una herramienta más", no en "rendirse". Sin un cap duro, la garantía de **terminación** del agente depende de la calibración del LLM — una propiedad que no podemos garantizar estructuralmente, especialmente en entradas adversarias.

q-32-03 — Los cuatro modos de fallo canónicos de los agentes¶

Empareja cada modo de fallo con su mitigación: (i) bucle infinito, (ii) nombre de herramienta alucinado, (iii) ceguera ante errores de herramienta (reintentar con los mismos args), (iv) respuesta-errónea-con-citas.

(i) → cap duro de max_turns / max_tool_calls
(ii) → máscara JSON-Schema con tool: enum: [...]
(iii) → anteponer marcadores [error] en las observaciones del scratchpad
(iv) → el prompt de respuesta final debe referenciar el resultado de la herramienta por id

Respuesta

**Las cuatro.** Cada fallo tiene una mitigación estructural específica; combinadas en capas forman el contrato de corrección del agente.

q-32-04 — Dónde se enchufa el alineamiento¶

Según la referencia cruzada con la pista de extensión X3 (RLHF/DPO), ¿qué mejora X3 en el agente de Fase 32 que el propio bucle de la Fase 32 no puede?

X3 reduce la latencia de tool calling.
X3 entrena la calidad del paso reason y la calibración de "rendirse", entrenando el LLM subyacente sobre pares de preferencia.
X3 reemplaza el servidor MCP por un transporte más rápido.
X3 elimina la necesidad de caps en el bucle.

Respuesta

**Opción 2.** El bucle del agente es *estructural*; la calidad del razonamiento del LLM es *empírica*. X3 mejora la parte empírica. Los caps y máscaras estructurales se mantienen pase lo que pase.

q-32-05 — Manejo fuera de alcance en §A13¶

El agente recibe el prompt "Conjuga swim en past simple". Dado que swim no está en la lista de 20 verbos §A13, ¿cuál es el comportamiento correcto?

Generar la forma más plausible ('swam') desde la memoria paramétrica del modelo.
Declinar educadamente, indicando que el verbo no está en el conjunto soportado y ofrecer el verbo más cercano dentro del alcance si lo hay.
Llamar a la herramienta conjugate con argumentos que fallen la validación de esquema, esperando una respuesta de error.
Iterar hasta que el modelo invente una respuesta plausible.

Respuesta

**Opción 2.** Las entradas fuera de alcance deben declinarse explícitamente. El alcance microscópico §A13 es un contrato; la declinación honesta es el comportamiento correcto y cuenta como ÉXITO en el arnés de evaluación, no como fallo.