Google lâche DiffusionGemma, un modèle de 26 milliards de paramètres qui casse le modèle autorégressif classique. Au lieu de construire le texte token par token, il utilise la diffusion — la même mécanique qui transforme du bruit en image chez les modèles visuels. Résultat : 1 000 tokens/seconde sur un H100, soit quatre fois plus rapide que les concurrents.
Le revers ? La qualité sort dégradée. Google le positionne donc comme un expérimental pour développeurs, pas comme un remplaçant fiable. C'est un pivot conceptuel intéressant : briser la linéarité de la génération textuelle, mais sans encore maîtriser la finesse du résultat.
Le vrai enjeu : si la vitesse gagne sur la qualité, qui profite ? Les cas d'usage temps réel (chatbot, code), certes. Mais gare au trade-off devenir normal — accepter une sortie dégradée pour de la rapidité, c'est changer nos attentes sans vraiment le dire.
Cet approche diffusion pour le texte restera un terrain de jeu pour chercheurs tant que le gap qualité persiste.






