Les algos de reinforcement learning qui apprennent à partir de données non optimales galéraient avec l'instabilité. TDC avait apporté une correction via une matrice auxiliaire, mais restait limité. Cette recherche propose BA-TDC et BA-TDRC : remplacer la géométrie auxiliaire par une matrice consciente du comportement de l'agent (behavior Bellman matrix), puis la régulariser en une seule itération.
L'idée est simple mais efficace : au lieu de corriger l'instabilité de manière générique, tenir compte du comportement réel de l'agent qui produit les données. C'est particulièrement pertinent en RL, où l'agent explore et doit apprendre sans dépendre d'une politique optimale.
Utile pour déboguer et optimiser les futures générations d'algos..
Le papier se concentre sur le cadre linéaire — le modèle local qui explique comment les features évoluent lors de l'approximation de fonctions de valeur. Mais les implications remontent jusqu'aux deep RL appliqués, où cette instabilité off-policy est une plaie chronique.
Résultat : une approche théoriquement plus solide, qui sépare clairement ce que fait le comportement de ce que fait la régularisation. Utile pour déboguer et optimiser les futures générations d'algos.

