Les meilleurs modèles IA échouent à 97% sur le vrai travail

// IA7 · 19/06/26 - 16:30

IA719/06/26 - 16:30·2 min·actu·The Decoder

Les meilleurs modèles IA échouent à 97% sur le vrai travail

// illustration générée — IA7

0:00 / 0:00

Un nouveau benchmark révèle l'écart abyssal entre les performances affichées par les modèles IA et leur capacité réelle à accomplir des tâches de connaissance complexes. Seuls 3% des problèmes sont entièrement résolus par les meilleurs modèles actuels — pas les 90% que suggèrent les benchmarks classiques.

Cette mesure expose une limite majeure rarement discutée : les tests actuels évaluent la capacité à cocher des cases, pas à naviguer l'ambiguïté, les dépendances entre tâches et les aller-retours typiques du travail intellectuel réel. Un consultant qui doit extraire des données d'un rapport, les croiser avec une codebase, et produire une recommandation ? L'IA plante bien avant le bout.

Pour les utilisateurs de modèles en production, le message est clair : arrêter de supposer qu'un bon score sur MMLU ou HumanEval garantit une utilité opérationnelle. Le vrai test, c'est ton workflow — pas un leaderboard. Les entreprises qui ont investi dans l'IA parce que ChatGPT a impressionné le PDG vont bientôt sentir passer le moment où le prototype devient projet.

// à savoir

Benchmark

— Test standardisé mesurant la performance d'un modèle IA sur des tâches données — souvent déconnecté du contexte d'usage réel.

Knowledge work

— Travail intellectuel impliquant l'extraction, la transformation et la synthèse d'informations complexes et contextualisées.

source

/ feed ↩

Les meilleurs modèles IA échouent à 97% sur le vrai travail

// à savoir

Benchmark

Knowledge work

Un CEO, zéro employés, millions levés : le pari fou

10% des gens lisent l'actualité via ChatGPT, zéro confiance

Subquadratic prétend débloquer l'IA