English · Español
Fase 35 — Quizzes¶
🇪🇸 Espejo legible del banco de preguntas; la fuente canónica es
data/quizzes/phase-35-distributed.yaml.
q-35-01 — ¿Coste de ancho de banda por worker de un ring all-reduce?¶
- S / N
- S
- 2S ← correcto
- N · S
q-35-02 — ¿Cuándo es ZeRO-3 / FSDP-full la elección correcta?¶
- Los parámetros completos del modelo no caben en un solo worker. ← correcto
- El estado del optimizador por sí solo supera la memoria del worker. ← correcto
- Quieres el menor coste posible de comunicación por step.
- Cada forward pass tolera all-gathers adicionales para prefetch de parámetros. ← correcto
q-35-03 — ¿Por qué un split de shard desalineado rompe el all-reduce?¶
Respuesta libre. Respuestas aceptables contienen hang.
Las operaciones colectivas son estrictas en tamaño; buffers desajustados o bien se cuelgan (no hay peer para el chunk que falta) o producen una suma incorrecta.
q-35-04 — ¿Cuándo recurrir al tensor parallelism?¶
Respuesta libre. Respuestas aceptables contienen matmul.
Un único matmul (típicamente un linear grande de d_model) deja de caber en un solo worker; TP corta el propio matmul.
Ver theory/05-ring-allreduce-derivation-and-strategy-choice.md.