ZAYA1-8B : 700M paramètres, raisonnement maximal

// IA7 · 09/05/26 - 09:44

// illustration générée — IA7

Zyphra sort ZAYA1-8B, un modèle mixture-of-experts avec seulement 700M paramètres actifs sur 8B total, capable de rivaliser avec DeepSeek-R1 sur les benchmarks math et code. Le coup : entraîné entièrement sur stack AMD, du prétraining au fine-tuning, sans dépendre de chips NVIDIA. C'est la première approche où le reasoning est intégré dès le prétraining, via un schéma d'élagage préservant les réponses. La tension : un 8B raisonneur ça pèse léger, mais ça pose la question de la scalabilité réelle — DeepSeek a 671B, même si son ratio actif/total est similaire. Le pivot : Zyphra utilise une cascade RL en quatre étapes (warmup math, puzzles, puis optimisation progressive), avec un compute 100% AMD — un signal fort pour diversifier les chaînes de production IA. Sur 12 mois, la standardisation des modèles raisonneurs sub-1B sera critique pour l'inférence on-device et les environnements contraints. Les enjeux : commoditiser le reasoning, casser la dépendance NVIDIA, valider que la taille active compte plus que la taille totale. ZAYA1-8B prouve qu'on peut shipper du reasoning compact sans sacrifier la qualité — c'est de l'ingénierie pure.

-- glossaire

Mixture-of-Experts (MoE)

— Architecture où seule une fraction des paramètres s'active par prédiction, réduisant le coût compute tout en conservant la capacité totale du modèle.

Paramètres actifs vs. totaux

— Paramètres actifs : ceux réellement utilisés par token généré. Paramètres totaux : capacité théorique complète. Le ratio détermine l'efficacité réelle.

Answer-preserving trimming

— Technique de data cleaning qui réduit les séquences tout en garantissant que la réponse finale reste identique et utilisable pour l'entraînement.

RL cascade

— Pipeline de reinforcement learning multistage où chaque étape optimise un aspect différent (warmup, généralisation, performance finale).

[SOURCE] ArXiv AI

// IA7 — L'IA. En clair. Maintenant.