Des chercheurs d'arXiv proposent une définition formelle de ce qu'est une bonne explication en IA, inspirée par les explications contrefactuelles. Le modèle intègre les croyances préalables de l'interlocuteur : expliquer n'est pas donner des faits, mais adapter l'information à ce que sait déjà celui qui écoute.
Le problème central : les LLM génèrent des réponses via des milliards de paramètres interconnectés, sans véritable « raison » à exposer. Contrairement à un diagnostic médical (« vous avez la grippe car vous avez 39°C, toux, fatigue »), il n'existe pas de chaîne causale claire à raconter.
Cette approche philosophique redéfinit l'explainability comme un acte relationnel, pas comme une dissection technique. Elle remet en question la course actuelle aux outils d'interprétabilité (attention maps, feature visualizations) : ils décortiquent le fonctionnement interne, mais ne constituent pas des explications au sens où l'entend un humain.
Implication : l'IA adoptée massivement sans véritable compréhension. Les utilisateurs obtiennent des réponses convaincantes, jamais des explications. Une distinction qui change tout pour la confiance et la responsabilité.



