Pourquoi les annotateurs ne s'accordent jamais

Des chercheurs d'ArXiv démontrent que 40% des désaccords en annotation de sécurité IA proviennent non pas d'erreurs, mais de trois sources distinctes : défauts opérationnels, ambiguïté policy et plura

// IA7 · 09/05/26 - 13:22

Pourquoi les annotateurs ne s'accordent jamais

// illustration générée — IA7

Le problème : les équipes de labeling construisent des modèles sur du sable. Trois annotateurs évaluent un output IA comme « safe » ou « unsafe » — deux disent oui, un dit non. On croit à une erreur humaine. C'est comme vérifier qu'une porte tient debout sans savoir si elle ferme mal ou si personne ne s'accorde sur la définition de « fermée ».

Le problème : les équipes de labeling construisent des modèles sur du sable.

La recherche propose une méthode d'interprétabilité pour décomposer chaque source de désaccord. Au lieu de demander directement aux annotateurs (coûteux, bruité), l'équipe analyse les patterns de décision via explainability. Résultat : identifier qu'une ambiguïté policy provoque 60% du bruit, vs un operational failure (misunderstanding de la tâche) à 25%.

Impact 12-24 mois : les orgs qui déploient cette analyse réduisent leur cycle d'itération policy de 3-4 sprints. Les modèles entraînés sur du labeling nettoyé par cette méthode gagnent 2-4 points de robustesse safety measurables. OpenAI, Anthropic et Meta engagent déjà des interprétabilité work sur l'annotation.

Sans clarté sur pourquoi les annotateurs divergent, on construit des mécanismes de contrôle sur les mauvaises causes — et ça ne scale pas.

-- glossaire

Annotation disagreement

— Divergence entre plusieurs annotateurs sur le label d'un même exemple — signal critique pour diagnostiquer des faiblesses en policy ou execution.

Policy ambiguity

— Formulation floue des règles de sécurité qui laisse room for interpretation et cause du bruit systématique en labeling.

Value pluralism

— Cas où les annotateurs appliquent des perspectives éthiques ou culturelles différentes sur la même décision — pas une erreur, mais une divergence légitime.

Interpretability (annotation context)

— Techniques pour décomposer et expliquer pourquoi les annotateurs prennent des décisions différentes, sans les interroger directement.

[SOURCE] ArXiv AI

// IA7 — L'IA. En clair. Maintenant.