Les agents IA qui automatisent le bureau fonctionnent aujourd'hui comme des aveugles : ils prennent une capture d'écran, devinent des coordonnées de pixels, cliquent, recommencent. Lent, coûteux en jetons, fragile. Si l'interface bouge de quelques pixels, tout s'écroule.
Un développeur propose une alternative radicale : utiliser ce que votre OS expose déjà. macOS a l'Accessibility API, Windows la UI Automation, Linux l'AT-SPI. Les lecteurs d'écran pour malvoyants les exploitent depuis des années. Son outil, Agent-desktop, applique cette logique aux agents IA : au lieu de deviner où cliquer, l'agent reçoit la structure réelle de l'interface, les vrais noms des boutons, leur position exacte. Résultat : plus rapide, moins de tokens dépensés, robuste face aux petits changements d'UI.
C'est le même saut que Playwright a fait sur le web.
C'est le même saut que Playwright a fait sur le web. Les agents IA rattrapent lentement les outils de test d'automation : ils cessent de jouer aux aveugles pour interagir intelligemment avec le système.

