Microsoft Research lâche Lens, un générateur d'images texte-vers-image avec 3,8 milliards de paramètres seulement. Il rivalise avec des modèles dix fois plus gros sur les benchmarks, et coûte une fraction de leur budget d'entraînement. Le truc qui change tout : 800 millions de descriptions d'images hyper-détaillées générées par GPT-4V, pas les vagues balises alt du web.
L'équipe a compris ce que tout le monde savait vaguement mais personne ne voulait investir : la qualité des données écrase la quantité brute. Fini l'époque où il fallait un cluster de 10 000 GPUs et des milliards de paramètres pour sortir quelque chose de correct. Ici, c'est 3.8 miliards, du code ouvert, des poids accessibles.
Ca change la donne pour qui ? Tous les labs qui ne sont pas OpenAI, Google ou Meta. Les universités, les petites boîtes, les chercheurs français qui regardaient Stable Diffusion en se disant « sympa, mais je ne peux pas reproduire ça ». Soudain, il y a une route praticable.
Le message implicite : l'IA de demain ne sera pas plus grosse, juste mieux nourrie. Et les données, c'est du travail — curage, annotation, refinement — pas juste du silicium.



