$ skip to content
ZAYA1-8B : 700M paramètres, raisonnement maximal0%
Actu

ZAYA1-8B : 700M paramètres, raisonnement maximal

Zyphra sort ZAYA1-8B, un modèle mixture-of-experts avec seulement 700M paramètres actifs sur 8B total, capable de rivaliser avec DeepSeek-R1 sur les benchmarks math et code. Le coup : entraîné entière

ZAYA1-8B : 700M paramètres, raisonnement maximal
// illustration générée — IA7
/

Zyphra sort ZAYA1-8B, un modèle mixture-of-experts avec seulement 700M paramètres actifs sur 8B total, capable de rivaliser avec DeepSeek-R1 sur les benchmarks math et code. Le coup : entraîné entièrement sur stack AMD, du prétraining au fine-tuning, sans dépendre de chips NVIDIA. C'est la première approche où le reasoning est intégré dès le prétraining, via un schéma d'élagage préservant les réponses. La tension : un 8B raisonneur ça pèse léger, mais ça pose la question de la scalabilité réelle — DeepSeek a 671B, même si son ratio actif/total est similaire. Le pivot : Zyphra utilise une cascade RL en quatre étapes (warmup math, puzzles, puis optimisation progressive), avec un compute 100% AMD — un signal fort pour diversifier les chaînes de production IA. Sur 12 mois, la standardisation des modèles raisonneurs sub-1B sera critique pour l'inférence on-device et les environnements contraints. Les enjeux : commoditiser le reasoning, casser la dépendance NVIDIA, valider que la taille active compte plus que la taille totale. ZAYA1-8B prouve qu'on peut shipper du reasoning compact sans sacrifier la qualité — c'est de l'ingénierie pure.

-- glossaire

Mixture-of-Experts (MoE)

Architecture où seule une fraction des paramètres s'active par prédiction, réduisant le coût compute tout en conservant la capacité totale du modèle.

Paramètres actifs vs. totaux

Paramètres actifs : ceux réellement utilisés par token généré. Paramètres totaux : capacité théorique complète. Le ratio détermine l'efficacité réelle.

Answer-preserving trimming

Technique de data cleaning qui réduit les séquences tout en garantissant que la réponse finale reste identique et utilisable pour l'entraînement.

RL cascade

Pipeline de reinforcement learning multistage où chaque étape optimise un aspect différent (warmup, généralisation, performance finale).
[SOURCE] ArXiv AI
// IA7 — L'IA. En clair. Maintenant.