Skip to content

English · Español

Fase 35 — Quizzes

🇪🇸 Espejo legible del banco de preguntas; la fuente canónica es data/quizzes/phase-35-distributed.yaml.

q-35-01 — ¿Coste de ancho de banda por worker de un ring all-reduce?

  • S / N
  • S
  • 2S ← correcto
  • N · S

q-35-02 — ¿Cuándo es ZeRO-3 / FSDP-full la elección correcta?

  • Los parámetros completos del modelo no caben en un solo worker. ← correcto
  • El estado del optimizador por sí solo supera la memoria del worker. ← correcto
  • Quieres el menor coste posible de comunicación por step.
  • Cada forward pass tolera all-gathers adicionales para prefetch de parámetros. ← correcto

q-35-03 — ¿Por qué un split de shard desalineado rompe el all-reduce?

Respuesta libre. Respuestas aceptables contienen hang.

Las operaciones colectivas son estrictas en tamaño; buffers desajustados o bien se cuelgan (no hay peer para el chunk que falta) o producen una suma incorrecta.

q-35-04 — ¿Cuándo recurrir al tensor parallelism?

Respuesta libre. Respuestas aceptables contienen matmul.

Un único matmul (típicamente un linear grande de d_model) deja de caber en un solo worker; TP corta el propio matmul.


Ver theory/05-ring-allreduce-derivation-and-strategy-choice.md.