Des chercheurs publient ToolSense, un framework de diagnostic qui révèle un problème majeur : les LLM fine-tunés pour récupérer des outils ne les comprennent pas vraiment. Alors que les benchmarks actuels (ToolBench) montrent des performances fortes, ils utilisent des requêtes très détaillées et appliquent un décodage contraint qui masque les vraies faiblesses du modèle.
ToolSense propose une évaluation plus robuste : tester si le modèle sait réellement utiliser ses outils sans béquilles. Le problème ? Les approches paramétriques actuelles — qui encodent chaque outil comme un token virtuel dans le vocabulaire du LLM — mémorisent plutôt qu'elles ne comprennent. En conditions réelles, avec des requêtes imprécises ou ambiguës, ces systèmes s'effondrent.
Cette recherche sort un constat inconfortable : l'industrie optimise sur des métriques qui ne reflètent pas la réalité opérationnelle. Un LLM-agent capable de choisir le bon outil parmi 10 000 en lab peut échouer complètement dans un contexte bruyant ou mal spécifié.
L'enjeu est concret : si tes systèmes d'IA d'entreprise reposent sur des agents à base de LLM, ils risquent de faire la mauvaise chose très confiants.



