Les World Action Models changent la donne : au lieu de juste reconnaître quelle image correspond à quel mouvement, ils simulent comment le monde réagit réellement. Résultat.
Ces modèles craquent un problème fondamental de la robotique actuelle. Les systèmes traditionnels mappent action → image sans comprendre la physique dessous. Les WAM, eux, construisent une compréhension causale : tu pousses l'objet, il glisse selon les lois de la friction, la caméra voit le résultat.
Cela ouvre la planification véritable.
Le coup de génie : ils apprennent à partir de vidéos ordinaires sans annotations. Des millions d'heures YouTube, TikTok, caméras de surveillance — autant de données qui étaient invisibles pour l'IA robotique classique. Sauf que ça revient à apprendre la physique en regardant le monde, pas en étiquetant manuellement chaque geste.
Cela ouvre la planification véritable. Un robot peut désormais essayer 100 trajectoires différentes en simulation interne avant de bouger. Les erreurs coûtent moins cher en calcul qu'en hardware cassé.

