Skip to content

English · Español

Fase 36 — Quizzes

🇪🇸 Espejo legible del banco de preguntas; la fuente canónica es data/quizzes/phase-36-frontier-architectures.yaml.

q-36-01 — ¿Por qué el MoE estilo Switch añade una pérdida auxiliar?

Respuesta libre. Las respuestas aceptables contienen collapse.

Colapso del router: sin aux loss, el router aprende a enviar todos los tokens a un expert, lastrando a los demás.

q-36-02 — Marca cada propiedad de Mamba / SSM relativa al transformer.

  • La memoria por paso es constante en la longitud de secuencia. ← correcto
  • El acceso aleatorio a tokens pasados arbitrarios se preserva exactamente.
  • El cómputo puede paralelizarse vía un scan asociativo. ← correcto
  • Es universalmente mejor que la attention en tareas de contexto largo.

q-36-03 — ¿Ventaja de FLOPs del MoE vs. denso?

  • k / E (una fracción de los FLOPs del denso) ← correcto
  • E / k
  • 1
  • k · E

q-36-04 — ¿Por qué el colapso del router está oculto para la pérdida principal de entrenamiento?

Respuesta libre. Las respuestas aceptables contienen expert.

El único expert activo sigue aprendiendo una FFN razonable; la pérdida principal sigue bajando. Solo la val loss o los conteos de tokens por expert lo sacan a la superficie.


Ver theory/05-moe-routing-math-and-mamba-intuition.md.