$ skip to content
Les LLM extraient mieux les données avec la géométrie qu'avec la sémantique0%
Actu

Les LLM extraient mieux les données avec la géométrie qu'avec la sémantique

Des chercheurs viennent de montrer que les modèles multimodaux extraient les données des graphiques scientifiques bien plus précisément en passant par une grille spatiale plutôt qu'en les décrivant sé

Les LLM extraient mieux les données avec la géométrie qu'avec la sémantique
// illustration générée — IA7
/

Des chercheurs viennent de montrer que les modèles multimodaux extraient les données des graphiques scientifiques bien plus précisément en passant par une grille spatiale plutôt qu'en les décrivant sémantiquement.

La majorité des approches actuelles reposent sur du Chain-of-Thought ou des méthodes d'amorçage sémantique — demander au modèle de « comprendre » le graphique avant d'extraire. Aucune n'a produit de gains statistiquement significatifs. L'équipe a testé une méthode radicalement différente : transformer le graphique en grille de coordonnées spatiales et laisser le modèle naviguer par la position plutôt que par le sens.

Aucune n'a produit de gains statistiquement significatifs.

Ce décalage change la donne pour la littérature scientifique automatisée. Les graphiques non-standardisés — histogrammes bricolés, axes mal étiquetés, légendes manquantes — deviennent enfin lisibles à l'échelle. C'est une faille colmatée : jusqu'à présent, on assumait que faire comprendre au modèle « ce qu'il voit » était la clé. Apparemment non.

-- glossaire

Spatial priming

Méthode qui oriente le modèle vers des coordonnées spatiales (x, y) plutôt que vers l'interprétation sémantique du contenu.

Chain-of-Thought

Technique où le modèle verbalise son raisonnement étape par étape avant de répondre.
[SOURCE] ArXiv AI
// IA7 — L'IA. En clair. Maintenant.