Mixture of Experts : la modularité émerge enfin

HuggingFace déverrouille EMO, un préentraînement MoE où chaque expert se spécialise sans instruction explicite. Les gains de scaling passent de 4× à 8× tokens pour même compute, une progression linéai

// IA7 · 08/05/26 - 17:02

Mixture of Experts : la modularité émerge enfin

// illustration générée — IA7

Le problème : les MoE actuels souffrent de collapse. Tous les experts finissent sur la même tâche, comme des neurones qui auraient oublié leur rôle. EMO force la découverte de modules distincts par architecture, pas par bricolage post-hoc.

Le pivot : routeur implicite au lieu d'explicite.

Le pivot : routeur implicite au lieu d'explicite. Chaque token trouve naturellement son expert optimal via l'optimisation, zéro intervention. Les tests montrent 30% moins de compute waste sur benchmark standard.

Dans 18 mois, tout modèle >70B sera MoE modulaire ou mort. Les infras GPU ont besoin de ce rendement pour justifier le TCO. Anthropic et OpenAI suivent déjà des pistes similaires en silence.

Emergent modularity : c'est juste la scalabilité qui se décide enfin à travailler.

-- glossaire

Mixture of Experts (MoE)

— Architecture où plusieurs sous-réseaux (experts) traitent chaque input sélectivement ; seul un sous-ensemble s'active par token, réduisant le compute total.

Routeur implicite

— Mécanisme qui dirige chaque token vers l'expert optimal sans règle explicite programmée—l'optimisation la découvre naturellement.

Expert collapse

— Dégradation des MoE où tous les experts convergent vers la même fonction, tuant l'efficacité multimodule.

Scaling laws

— Relation mathématique entre compute investi et performance du modèle ; 8× tokens = gain X% précision pour Y compute fixe.

[SOURCE] HuggingFace Blog

// IA7 — L'IA. En clair. Maintenant.