$ skip to content
ZAYA1 rivalise avec DeepSeek-R1 sur 760M paramètres0%
Outils

ZAYA1 rivalise avec DeepSeek-R1 sur 760M paramètres

Une startup ouvre ZAYA1-8B, un modèle de mixture-of-experts qui égale DeepSeek-R1 en mathématiques avec seulement 760 millions de paramètres actifs sur 8 milliards. C'est 10 fois moins d'énergie calcu

ZAYA1 rivalise avec DeepSeek-R1 sur 760M paramètres
// illustration générée — IA7
/

Une startup ouvre ZAYA1-8B, un modèle de mixture-of-experts qui égale DeepSeek-R1 en mathématiques avec seulement 760 millions de paramètres actifs sur 8 milliards. C'est 10 fois moins d'énergie calculée pour une performance équivalente sur les benchmarks AIME et MATH500.

Le piège habituel : plus de paramètres dormants = plus de poids à servir. Mais ici, l'architecture MoE fonctionne comme un routeur postal — chaque calcul n'active que les experts pertinents, le reste reste au repos. Zéro surplus de latence en inférence. Les labs centralisés (OpenAI, Google) misent sur le brute force GPU; ZAYA1 prouve qu'un design malin peut vaincre le budget.

Zéro surplus de latence en inférence.

L'équipe a publié le code et les poids en open-source. Les premiers utilisateurs rapportent des temps d'inférence 3x plus rapides qu'un modèle dense comparable, même sur du hardware modeste. Pas de trickery : benchmarks publics, résultats reproductibles sur HuggingFace.

L'enjeu : si des modèles MoE 8B deviennent la norme en 18 mois, les startups de déploiement local explosent (Ollama, vLLM gagnent), et les API cloud perdent le monopole du cost-per-token. Les datacenters hyperscale devront repenser l'optimisation mémoire.

Open-source MoE démolira le verrouillage des gros modèles propriétaires.

-- glossaire

Mixture-of-Experts (MoE)

Architecture où un réseau contient plusieurs sous-modèles spécialisés et un routeur qui active seulement les experts pertinents par calcul, pas tous à la fois.

Paramètres actifs

Fraction des poids du modèle utilisés effectivement pour traiter une entrée donnée — le reste reste dormant.

Benchmark AIME

Test standardisé de compétitions mathématiques internationales, référence pour évaluer la capacité de raisonnement algébrique des modèles.

Inférence

Processus d'exécution d'un modèle entraîné sur une nouvelle donnée pour produire une prédiction ou une réponse.
[SOURCE] Hacker News AI
// IA7 — L'IA. En clair. Maintenant.