Skip to content

English · Español

Fase 33 — Quizzes

Mirror legible para humanos del banco de preguntas. La fuente canónica YAML está en data/quizzes/phase-33-inference-serving.yaml; el portal de la Fase 41 carga ese archivo.

Esta página refleja data/quizzes/phase-33-inference-serving.yaml para lectura humana. El seeder del portal es la fuente de verdad.

q-33-01 — ¿Qué término domina la latencia del tutor de gramática §A13 en un i5-8250U?

Para una petición típica de un solo cliente al tutor de gramática §A13 en el i5-8250U de Borja (backend NumPy, K≈20 tokens de decode), ¿qué componente del presupuesto de latencia domina el p50?

  • Parseo JSON y validación Pydantic
  • Tokenización BPE de la frase de entrada
  • El bucle de decode auto-regresivo (K · t_decode_step) ← correcta
  • Handshake TLS en la conexión entrante

Por qué: El presupuesto de la teoría 05 sitúa ~130 ms de los ~150 ms p50 en el bucle de decode.

q-33-02 — ¿Por qué el throughput se hunde sin batching con C=8?

Selecciona todas las razones por las que el handler de petición única que llama a model.forward() directamente no logra sostener 8 clientes concurrentes en una CPU de 4C/8T.

  • Cada petición tiene su propia matmul; el overhead de BLAS se paga por petición, no se amortiza. ← correcta
  • Las peticiones se serializan en el thread NumPy ligado al GIL; la concurrencia no incrementa el paralelismo. ← correcta
  • El event loop de FastAPI se convierte en el cuello de botella, no el modelo.
  • El backlog TCP se desborda antes de llegar al modelo.

q-33-03 — ¿Qué aporta la KV cache a la escala del tutor de gramática §A13?

Respuesta libre. Las respuestas aceptables contienen decode.

La cache evita recomputar la atención sobre el prefijo en cada paso de decode, bajando t_decode_step de ~18 ms a ~6.5 ms — aproximadamente la mitad del total.

q-33-04 — ¿Qué endpoint de health-check debe consultar el balanceador de carga?

  • /healthz (liveness)
  • /readyz (readiness) ← correcta
  • /metrics
  • /correct

Por qué: /readyz indica "listo para aceptar tráfico" y devuelve 503 bajo backpressure para que el LB redirija tráfico a otras réplicas. /healthz es para decisiones de reinicio a nivel del orquestador.


Ver theory/05-latency-budget-i5-8250u.md y los ejercicios break/ para el aterrizaje práctico.