Des chercheurs d'ArXiv démontrent que 40% des désaccords en annotation de sécurité IA proviennent non pas d'erreurs, mais de trois sources distinctes : défauts opérationnels, ambiguïté policy et pluralisme de valeurs.
Le problème : les équipes de labeling construisent des modèles sur du sable. Trois annotateurs évaluent un output IA comme « safe » ou « unsafe » — deux disent oui, un dit non. On croit à une erreur humaine. C'est comme vérifier qu'une porte tient debout sans savoir si elle ferme mal ou si personne ne s'accorde sur la définition de « fermée ».
Le problème : les équipes de labeling construisent des modèles sur du sable.
La recherche propose une méthode d'interprétabilité pour décomposer chaque source de désaccord. Au lieu de demander directement aux annotateurs (coûteux, bruité), l'équipe analyse les patterns de décision via explainability. Résultat : identifier qu'une ambiguïté policy provoque 60% du bruit, vs un operational failure (misunderstanding de la tâche) à 25%.
Impact 12-24 mois : les orgs qui déploient cette analyse réduisent leur cycle d'itération policy de 3-4 sprints. Les modèles entraînés sur du labeling nettoyé par cette méthode gagnent 2-4 points de robustesse safety measurables. OpenAI, Anthropic et Meta engagent déjà des interprétabilité work sur l'annotation.
Sans clarté sur pourquoi les annotateurs divergent, on construit des mécanismes de contrôle sur les mauvaises causes — et ça ne scale pas.

