English · Español
Fase 36 — Quizzes¶
🇪🇸 Espejo legible del banco de preguntas; la fuente canónica es
data/quizzes/phase-36-frontier-architectures.yaml.
q-36-01 — ¿Por qué el MoE estilo Switch añade una pérdida auxiliar?¶
Respuesta libre. Las respuestas aceptables contienen collapse.
Colapso del router: sin aux loss, el router aprende a enviar todos los tokens a un expert, lastrando a los demás.
q-36-02 — Marca cada propiedad de Mamba / SSM relativa al transformer.¶
- La memoria por paso es constante en la longitud de secuencia. ← correcto
- El acceso aleatorio a tokens pasados arbitrarios se preserva exactamente.
- El cómputo puede paralelizarse vía un scan asociativo. ← correcto
- Es universalmente mejor que la attention en tareas de contexto largo.
q-36-03 — ¿Ventaja de FLOPs del MoE vs. denso?¶
- k / E (una fracción de los FLOPs del denso) ← correcto
- E / k
- 1
- k · E
q-36-04 — ¿Por qué el colapso del router está oculto para la pérdida principal de entrenamiento?¶
Respuesta libre. Las respuestas aceptables contienen expert.
El único expert activo sigue aprendiendo una FFN razonable; la pérdida principal sigue bajando. Solo la val loss o los conteos de tokens por expert lo sacan a la superficie.