Des chercheurs ont testé le postulat fondateur des modèles vision-langage : une attention nette = une réponse fiable. Les résultats sont sans appel : la corrélation est quasi-nulle (R²=0.001).
Trois familles VLM instrumentées (LLaVA-1.5, PaliGemma, Qwen2-VL) et 3 090 samples analysés. La géométrie de l'attention concentrée sur une région ? Zéro signal prédictif sur la justesse de la réponse. C'est le contraire de l'intuition qu'on se traîne depuis des années.
Zéro signal prédictif sur la justesse de la réponse.
Le vrai signal vit ailleurs : dans la dynamique de génération et la géométrie des hidden states. Les couches intermédiaires stockent une représentation de la confiance bien plus fiable que ce qu'on voit sur les attention maps.
En pratique, ça change tout. Si tu relies une application sur l'attention visuelle pour valider la fiabilité d'un VLM, tu construis sur du vide. Il faut inspecter les états cachés ou mesurer la variance de génération — plus coûteux, mais honnête.
Un coup de massue pour l'interprétabilité façon attention-is-explanation. Les circuits de confiance dans les VLM ne sont pas là où on regarde.

