Un développeur a créé un tracker en direct pour visualiser l'évolution des performances des modèles phares selon leur ELO Arena AI. Résultat : ce sentiment qu'on a tous — un modèle impressionnant au lancement, puis moins performant quelques semaines après — est mesurable.
Le dashboard trace une courbe unique par laboratoire IA, suivant le meilleur flagship de chacun dans le temps. Ça rend visibles les sauts générationnels brutaux et les dégradations lentes, sans le chaos d'un graphique à 50 courbes imbriquées. L'outil fonctionne en dark mode et s'adapte aux mobiles.
L'outil fonctionne en dark mode et s'adapte aux mobiles..
Ces fluctuations soulèvent des questions : déploiement progressif qui révèle des bugs ? Modèles optimisés à la chaîne ? Dégradation intentionnelle des versions précédentes pour pousser les upgrades ? L'ELO Arena reste le seul benchmark public qui capture les vrais comportements utilisateurs en continu.
Ce tracker transforme une intuition partagée en donnée exploitable — précisément ce qui manquait pour tracer la réalité de la course entre les labs.

