Les derniers modèles d'OpenAI et Anthropic restent bloqués sur des tâches de raisonnement élémentaires. La fondation ARC Prize a testé GPT-5.5 et Opus 4.7 sur 160 jeux du benchmark ARC-AGI-3 : les deux ne dépassent pas 1 % de réussite sur des énigmes que les humains résoudent sans effort.
L'analyse révèle trois patterns d'erreur systématiques. Ces défauts ne sont pas des bugs isolés, mais des limites structurelles : les modèles ne raisonnent pas, ils reconnaissent des motifs. Quand les patterns deviennent abstraits ou imprévisibles, ils s'écroulent.
Briller sur du texte et du code ne suffit pas.
Ce résultat remet en question la trajectoire des LLM vers l'AGI. Briller sur du texte et du code ne suffit pas. Le vrai raisonnement logique — celui que tout enfant maîtrise — reste hors de portée. Les géants de l'IA devront construire une architecture entièrement nouvelle pour franchir cette barrière.

