Une startup ouvre ZAYA1-8B, un modèle de mixture-of-experts qui égale DeepSeek-R1 en mathématiques avec seulement 760 millions de paramètres actifs sur 8 milliards. C'est 10 fois moins d'énergie calculée pour une performance équivalente sur les benchmarks AIME et MATH500.
Le piège habituel : plus de paramètres dormants = plus de poids à servir. Mais ici, l'architecture MoE fonctionne comme un routeur postal — chaque calcul n'active que les experts pertinents, le reste reste au repos. Zéro surplus de latence en inférence. Les labs centralisés (OpenAI, Google) misent sur le brute force GPU; ZAYA1 prouve qu'un design malin peut vaincre le budget.
Zéro surplus de latence en inférence.
L'équipe a publié le code et les poids en open-source. Les premiers utilisateurs rapportent des temps d'inférence 3x plus rapides qu'un modèle dense comparable, même sur du hardware modeste. Pas de trickery : benchmarks publics, résultats reproductibles sur HuggingFace.
L'enjeu : si des modèles MoE 8B deviennent la norme en 18 mois, les startups de déploiement local explosent (Ollama, vLLM gagnent), et les API cloud perdent le monopole du cost-per-token. Les datacenters hyperscale devront repenser l'optimisation mémoire.
Open-source MoE démolira le verrouillage des gros modèles propriétaires.

