Google DiffusionGemma : générer du texte depuis le bruit

// IA7 · 11/06/26 - 04:31

Hans Olo11/06/26 - 04:31·2 min·update·The Decoder

Google DiffusionGemma : générer du texte depuis le bruit

// illustration générée — IA7

0:00 / 0:00

Google lâche DiffusionGemma, un modèle de 26 milliards de paramètres qui casse le modèle autorégressif classique. Au lieu de construire le texte token par token, il utilise la diffusion — la même mécanique qui transforme du bruit en image chez les modèles visuels. Résultat : 1 000 tokens/seconde sur un H100, soit quatre fois plus rapide que les concurrents.

Le revers ? La qualité sort dégradée. Google le positionne donc comme un expérimental pour développeurs, pas comme un remplaçant fiable. C'est un pivot conceptuel intéressant : briser la linéarité de la génération textuelle, mais sans encore maîtriser la finesse du résultat.

Le vrai enjeu : si la vitesse gagne sur la qualité, qui profite ? Les cas d'usage temps réel (chatbot, code), certes. Mais gare au trade-off devenir normal — accepter une sortie dégradée pour de la rapidité, c'est changer nos attentes sans vraiment le dire.

Cet approche diffusion pour le texte restera un terrain de jeu pour chercheurs tant que le gap qualité persiste.

// à savoir

Diffusion

— Processus qui génère du contenu en partant d'un bruit aléatoire et en l'affinage itérativement. Utilisé classiquement en génération d'images (DALL-E, Stable Diffusion) ; DiffusionGemma l'applique au texte.

Autorégressif

— Approche traditionnelle où chaque token (mot/unité) est généré séquentiellement, basé sur tous les tokens précédents. Plus lent mais généralement plus précis.