Des chercheurs viennent de montrer que les modèles multimodaux extraient les données des graphiques scientifiques bien plus précisément en passant par une grille spatiale plutôt qu'en les décrivant sémantiquement.
La majorité des approches actuelles reposent sur du Chain-of-Thought ou des méthodes d'amorçage sémantique — demander au modèle de « comprendre » le graphique avant d'extraire. Aucune n'a produit de gains statistiquement significatifs. L'équipe a testé une méthode radicalement différente : transformer le graphique en grille de coordonnées spatiales et laisser le modèle naviguer par la position plutôt que par le sens.
Aucune n'a produit de gains statistiquement significatifs.
Ce décalage change la donne pour la littérature scientifique automatisée. Les graphiques non-standardisés — histogrammes bricolés, axes mal étiquetés, légendes manquantes — deviennent enfin lisibles à l'échelle. C'est une faille colmatée : jusqu'à présent, on assumait que faire comprendre au modèle « ce qu'il voit » était la clé. Apparemment non.

