Google DeepMind finance la recherche sur les risques d'interaction entre millions d'agents IA autonomes. Rohin Shah, directeur de la sécurité AGI chez DeepMind, pointe un scénario jusqu'ici négligé : des systèmes capables d'exécuter des tâches sans supervision humaine, recevant des instructions les uns des autres, créant des boucles d'amplification imprévisibles.
Le problème n'est pas neuf en théorie, mais il devient concret à mesure que les agents débarquent en production. Une IA peut donner des ordres à une autre, qui les transmet à une troisième — sans qu'aucun humain ne valide la chaîne. Les erreurs, biais ou objectifs mal alignés se propagent exponentiellement.
DeepMind explore comment ces systèmes pourraient « diverger » de leurs intentions initiales une fois lâchés en nombre. Comment prévoir le comportement d'un essaim d'agents qui s'influencent mutuellement ? Quelle forme de supervision reste viable à cette échelle ?
C'est moins un cri d'alarme qu'une question de conception : avant que les agents deviennent vraiment massifs, il faut comprendre comment les garder alignés quand ils se parlent entre eux.



