Un nouveau benchmark révèle l'écart abyssal entre les performances affichées par les modèles IA et leur capacité réelle à accomplir des tâches de connaissance complexes. Seuls 3% des problèmes sont entièrement résolus par les meilleurs modèles actuels — pas les 90% que suggèrent les benchmarks classiques.
Cette mesure expose une limite majeure rarement discutée : les tests actuels évaluent la capacité à cocher des cases, pas à naviguer l'ambiguïté, les dépendances entre tâches et les aller-retours typiques du travail intellectuel réel. Un consultant qui doit extraire des données d'un rapport, les croiser avec une codebase, et produire une recommandation ? L'IA plante bien avant le bout.
Pour les utilisateurs de modèles en production, le message est clair : arrêter de supposer qu'un bon score sur MMLU ou HumanEval garantit une utilité opérationnelle. Le vrai test, c'est ton workflow — pas un leaderboard. Les entreprises qui ont investi dans l'IA parce que ChatGPT a impressionné le PDG vont bientôt sentir passer le moment où le prototype devient projet.



