Les chiffres de l'IA sont truqués. Voici comment les vérifier vraiment

// IA7 · 01/05/26 - 14:01

// illustration générée — IA7

Un chercheur tente de reproduire les performances d'un modèle d'IA : le résultat annoncé est 67%, mais il obtient 54%. Le modèle card semblait pourtant parfait : checkpoint hashé, dataset nommé, métrique explicitée. Sauf que les détails manquent. Quelle version exacte du benchmark ? Quel température d'échantillonnage ? Quel seed aléatoire ? Les équipes ont-elles testé trois configurations avant de publier la meilleure ?

Ce problème s'appelle p-hacking : tu lances assez de tests, tu publies celui qui brille, et personne ne peut prouver que tu l'as choisi après coup. Les chiffres de performance deviennent infalsifiables. Un outil Python de 1287 lignes tente de forcer la transparence en exigeant que les équipes définissent leurs métriques et leurs seuils avant de toucher aux données.

Sinon, tu compares des illusions..

Pour les entreprises qui évaluent des modèles, le message est brutal : un benchmark reproductible n'existe pas par magie. Il faut exiger chaque paramètre, chaque décision, chaque run échoué. Sinon, tu compares des illusions.

[SOURCE] Dev.to ML

// IA7 — L'IA. En clair. Maintenant.