Des chercheurs ont identifié un bug fondamental dans l'apprentissage par renforcement multi-agents : quand des instructions en langage naturel interrompent le comportement en cours, les estimations de valeur deviennent incohérentes. MAVIC, une nouvelle méthode, corrige le problème en ajustant le bootstrapping lors des changements d'instruction, sans passer par le reward shaping classique.
Le problème surgit parce que les mises à jour de Bellman couplent les estimations de valeur entre contextes d'instructions différents. Un agent qui exécute une macro-action (une séquence complexe) se retrouve coincé : continuer l'action actuelle ou obéir à la nouvelle instruction ? Les deux créent des estimations de valeur contradictoires.
Ce n'est pas du reward shaping cosmétique.
MAVIC modifie directement la cible du bootstrapping plutôt que les récompenses. Résultat : l'agent peut switcher d'objectif sans que ses estimations de valeur deviennent chaotiques. C'est particulièrement utile pour les systèmes du monde réel où l'imprévu est la règle.
Ce n'est pas du reward shaping cosmétique. C'est une correction théorique profonde du problème d'adaptation à des instructions contradictoires en environnement multi-agent. Ça ouvre la porte à des systèmes plus robustes et réactifs.

