L'attention des VLM ne prédit rien

Des chercheurs ont testé le postulat fondateur des modèles vision-langage : une attention nette = une réponse fiable. Les résultats sont sans appel : la corrélation est quasi-nulle (R²=0.001).

// IA7 · 12/05/26 - 06:46

// illustration générée — IA7

Des chercheurs ont testé le postulat fondateur des modèles vision-langage : une attention nette = une réponse fiable. Les résultats sont sans appel : la corrélation est quasi-nulle (R²=0.001).

Trois familles VLM instrumentées (LLaVA-1.5, PaliGemma, Qwen2-VL) et 3 090 samples analysés. La géométrie de l'attention concentrée sur une région ? Zéro signal prédictif sur la justesse de la réponse. C'est le contraire de l'intuition qu'on se traîne depuis des années.

Zéro signal prédictif sur la justesse de la réponse.

Le vrai signal vit ailleurs : dans la dynamique de génération et la géométrie des hidden states. Les couches intermédiaires stockent une représentation de la confiance bien plus fiable que ce qu'on voit sur les attention maps.

En pratique, ça change tout. Si tu relies une application sur l'attention visuelle pour valider la fiabilité d'un VLM, tu construis sur du vide. Il faut inspecter les états cachés ou mesurer la variance de génération — plus coûteux, mais honnête.

Un coup de massue pour l'interprétabilité façon attention-is-explanation. Les circuits de confiance dans les VLM ne sont pas là où on regarde.

-- glossaire

Attention map

— Visualisation des poids d'attention : où le modèle 'regarde' dans l'input. Supposée révéler la logique du modèle.

Hidden states

— Représentations intermédiaires dans les couches du modèle. Contiennent l'information traitée avant le output final.

VLM (Vision-Language Model)

— Modèle multimodal fusionnant vision et langage (ex: LLaVA, GPT-4V). Peut analyser et décrire des images.

Causal circuits

— Pathways computationnels identifiés par intervention causale. Montrent quels composants sont vraiment responsables d'une sortie.

[SOURCE] ArXiv AI

// IA7 — L'IA. En clair. Maintenant.