Les grands modèles de langage souffrent du même biais que nous : ils sont trop confiants dans leurs réponses. Une étude préenregistrée sur arXiv montre que la confiance dépasse régulièrement la précision réelle.
Mais le phénomène n'est pas uniforme. Un effet « difficile-facile » étonnant apparaît : sur les tâches dures, la surconfiance explose, tandis que sur les tâches faciles, les modèles deviennent étrangement timides et sous-estiment leurs capacités.
Mais le phénomène n'est pas uniforme.
Cette découverte oblige à repenser comment on mesure la fiabilité des LLM. Les métriques classiques masquent un comportement beaucoup plus nuancé selon la difficulté du problème. C'est particulièrement critique pour les applications où la confiance affichée doit refléter la qualité réelle.
Les chercheurs proposent LifeEval, un benchmark spécifiquement conçu pour évaluer la calibration des modèles à différents niveaux de difficulté. Cet outil pourrait devenir essentiel pour auditer la fiabilité avant déploiement.

