Nvidia balance Nemotron-Labs, une approche radicale qui remplace l'auto-régression par la diffusion pour générer du texte. Au lieu de produire token après token, le modèle affine progressivement une séquence entière en parallèle — gain de vitesse massif à la clé.
La diffusion, c'est la technique derrière les images (Stable Diffusion, DALL-E). Appliquer ça au texte, c'était le truc qui manquait. Nemotron prouve que ça marche : moins de latence, même qualité de sortie, architecture plus simple. Les benchmarks montrent une accélération 2 à 4x comparé aux transformers classiques.
Les LLM basés sur transformer dominent depuis 2017.
Le truc qui change ? Les LLM basés sur transformer dominent depuis 2017. Cette diffusion redessine les priorités : moins de séquence pas à pas, plus de parallélisation. C'est pas une révolution immédiate — les transformers restent stables — mais c'est une brèche sérieuse sur la vitesse d'inférence, qui devient le vrai goulot.
Si cette approche s'installe, les déploiements d'IA sur edge et mobiles deviennent moins chers. Les coûts de compute pour servir des requêtes baissent. C'est ça qui intéresse les labs : économiser les GPU en production.

