Les systèmes autonomes ont besoin de comprendre les valeurs humaines pour prendre des décisions éthiques. Une équipe de recherche propose une architecture basée sur les LLM capable de détecter et quantifier l'intensité des valeurs morales dans un texte, qu'elles soient explicites ou implicites.
L'approche évite les pièges des méthodes précédentes : pas de dépendance à une théorie des valeurs spécifique, pas d'ingénierie de prompt complexe. Le système apprend à identifier ce qui compte vraiment pour les humains, directement depuis les données textuelles.
C'est un problème fondamental pour l'alignement de l'IA.
C'est un problème fondamental pour l'alignement de l'IA. Si une machine doit respecter nos valeurs, encore faut-il qu'elle sache les reconnaître. Jusqu'à présent, les approches étaient rigides, basées sur des frameworks théoriques préétablis qui ne capturaient qu'une partie de la réalité morale.
Cette architecture ouvre la voie à des systèmes IA vraiment adaptables, capables d'ajuster leur comportement selon les contextes et les préférences individuelles. Un pas vers des assistants IA moins génériques et plus alignés.

