Les LLM extraient mieux les données avec la géométrie qu'avec la sémantique

Des chercheurs viennent de montrer que les modèles multimodaux extraient les données des graphiques scientifiques bien plus précisément en passant par une grille spatiale plutôt qu'en les décrivant sé

// IA7 · 12/05/26 - 08:33

Les LLM extraient mieux les données avec la géométrie qu'avec la sémantique

// illustration générée — IA7

La majorité des approches actuelles reposent sur du Chain-of-Thought ou des méthodes d'amorçage sémantique — demander au modèle de « comprendre » le graphique avant d'extraire. Aucune n'a produit de gains statistiquement significatifs. L'équipe a testé une méthode radicalement différente : transformer le graphique en grille de coordonnées spatiales et laisser le modèle naviguer par la position plutôt que par le sens.

Aucune n'a produit de gains statistiquement significatifs.

Ce décalage change la donne pour la littérature scientifique automatisée. Les graphiques non-standardisés — histogrammes bricolés, axes mal étiquetés, légendes manquantes — deviennent enfin lisibles à l'échelle. C'est une faille colmatée : jusqu'à présent, on assumait que faire comprendre au modèle « ce qu'il voit » était la clé. Apparemment non.

-- glossaire

Spatial priming

— Méthode qui oriente le modèle vers des coordonnées spatiales (x, y) plutôt que vers l'interprétation sémantique du contenu.

Chain-of-Thought

— Technique où le modèle verbalise son raisonnement étape par étape avant de répondre.

[SOURCE] ArXiv AI

// IA7 — L'IA. En clair. Maintenant.