Off-policy learning devient enfin stable

// IA7 · 29/05/26 - 13:25

// illustration générée — IA7

Les algos de reinforcement learning qui apprennent à partir de données non optimales galéraient avec l'instabilité. TDC avait apporté une correction via une matrice auxiliaire, mais restait limité. Cette recherche propose BA-TDC et BA-TDRC : remplacer la géométrie auxiliaire par une matrice consciente du comportement de l'agent (behavior Bellman matrix), puis la régulariser en une seule itération.

L'idée est simple mais efficace : au lieu de corriger l'instabilité de manière générique, tenir compte du comportement réel de l'agent qui produit les données. C'est particulièrement pertinent en RL, où l'agent explore et doit apprendre sans dépendre d'une politique optimale.

Utile pour déboguer et optimiser les futures générations d'algos..

Le papier se concentre sur le cadre linéaire — le modèle local qui explique comment les features évoluent lors de l'approximation de fonctions de valeur. Mais les implications remontent jusqu'aux deep RL appliqués, où cette instabilité off-policy est une plaie chronique.

Résultat : une approche théoriquement plus solide, qui sépare clairement ce que fait le comportement de ce que fait la régularisation. Utile pour déboguer et optimiser les futures générations d'algos.

-- glossaire

Off-policy learning

— Apprentissage à partir de données générées par une autre politique que celle qu'on optimise — courant en RL mais numériquement instable.

Temporal-Difference (TD)

— Technique fondamentale en RL qui met à jour les estimations de valeur en fonction de la différence entre prédictions successives.

Function approximation

— Utilisation d'un modèle paramétré (réseau, fonction linéaire) pour estimer les valeurs plutôt que de stocker une table.

[SOURCE] ArXiv AI

// IA7 — L'IA. En clair. Maintenant.