Nvidia accélère la génération texte avec diffusion

Nvidia balance Nemotron-Labs, une approche radicale qui remplace l'auto-régression par la diffusion pour générer du texte. Au lieu de produire token après token, le modèle affine progressivement une s

// IA7 · 23/05/26 - 06:00

Nvidia accélère la génération texte avec diffusion

// illustration générée — IA7

La diffusion, c'est la technique derrière les images (Stable Diffusion, DALL-E). Appliquer ça au texte, c'était le truc qui manquait. Nemotron prouve que ça marche : moins de latence, même qualité de sortie, architecture plus simple. Les benchmarks montrent une accélération 2 à 4x comparé aux transformers classiques.

Les LLM basés sur transformer dominent depuis 2017.

Le truc qui change ? Les LLM basés sur transformer dominent depuis 2017. Cette diffusion redessine les priorités : moins de séquence pas à pas, plus de parallélisation. C'est pas une révolution immédiate — les transformers restent stables — mais c'est une brèche sérieuse sur la vitesse d'inférence, qui devient le vrai goulot.

Si cette approche s'installe, les déploiements d'IA sur edge et mobiles deviennent moins chers. Les coûts de compute pour servir des requêtes baissent. C'est ça qui intéresse les labs : économiser les GPU en production.

-- glossaire

Modèles de diffusion

— Processus génératif qui part du bruit aléatoire et l'affine progressivement en parallèle jusqu'à obtenir une sortie cohérente, au lieu de générer token par token.

Auto-régression

— Méthode traditionnelle des LLM où chaque token est généré séquentiellement en fonction des tokens précédents, créant une latence proportionnelle à la longueur.

Nemotron-Labs

— Suite de modèles open-source d'Nvidia utilisant la diffusion pour la génération de texte avec des gains de latence significatifs.

[SOURCE] HuggingFace Blog

// IA7 — L'IA. En clair. Maintenant.