HuggingFace déverrouille EMO, un préentraînement MoE où chaque expert se spécialise sans instruction explicite. Les gains de scaling passent de 4× à 8× tokens pour même compute, une progression linéaire qui rend les gros modèles rentables.
Le problème : les MoE actuels souffrent de collapse. Tous les experts finissent sur la même tâche, comme des neurones qui auraient oublié leur rôle. EMO force la découverte de modules distincts par architecture, pas par bricolage post-hoc.
Le pivot : routeur implicite au lieu d'explicite.
Le pivot : routeur implicite au lieu d'explicite. Chaque token trouve naturellement son expert optimal via l'optimisation, zéro intervention. Les tests montrent 30% moins de compute waste sur benchmark standard.
Dans 18 mois, tout modèle >70B sera MoE modulaire ou mort. Les infras GPU ont besoin de ce rendement pour justifier le TCO. Anthropic et OpenAI suivent déjà des pistes similaires en silence.
Emergent modularity : c'est juste la scalabilité qui se décide enfin à travailler.

