English · Español
Fase 33 — Quizzes¶
Mirror legible para humanos del banco de preguntas. La fuente canónica YAML está en
data/quizzes/phase-33-inference-serving.yaml; el portal de la Fase 41 carga ese archivo.
Esta página refleja data/quizzes/phase-33-inference-serving.yaml para lectura humana. El seeder del portal es la fuente de verdad.
q-33-01 — ¿Qué término domina la latencia del tutor de gramática §A13 en un i5-8250U?¶
Para una petición típica de un solo cliente al tutor de gramática §A13 en el i5-8250U de Borja (backend NumPy, K≈20 tokens de decode), ¿qué componente del presupuesto de latencia domina el p50?
- Parseo JSON y validación Pydantic
- Tokenización BPE de la frase de entrada
- El bucle de decode auto-regresivo (K · t_decode_step) ← correcta
- Handshake TLS en la conexión entrante
Por qué: El presupuesto de la teoría 05 sitúa ~130 ms de los ~150 ms p50 en el bucle de decode.
q-33-02 — ¿Por qué el throughput se hunde sin batching con C=8?¶
Selecciona todas las razones por las que el handler de petición única que llama a model.forward() directamente no logra sostener 8 clientes concurrentes en una CPU de 4C/8T.
- Cada petición tiene su propia matmul; el overhead de BLAS se paga por petición, no se amortiza. ← correcta
- Las peticiones se serializan en el thread NumPy ligado al GIL; la concurrencia no incrementa el paralelismo. ← correcta
- El event loop de FastAPI se convierte en el cuello de botella, no el modelo.
- El backlog TCP se desborda antes de llegar al modelo.
q-33-03 — ¿Qué aporta la KV cache a la escala del tutor de gramática §A13?¶
Respuesta libre. Las respuestas aceptables contienen decode.
La cache evita recomputar la atención sobre el prefijo en cada paso de decode, bajando t_decode_step de ~18 ms a ~6.5 ms — aproximadamente la mitad del total.
q-33-04 — ¿Qué endpoint de health-check debe consultar el balanceador de carga?¶
- /healthz (liveness)
- /readyz (readiness) ← correcta
- /metrics
- /correct
Por qué: /readyz indica "listo para aceptar tráfico" y devuelve 503 bajo backpressure para que el LB redirija tráfico a otras réplicas. /healthz es para decisiones de reinicio a nivel del orquestador.
Ver theory/05-latency-budget-i5-8250u.md y los ejercicios break/ para el aterrizaje práctico.