Des chercheurs d'ArXiv proposent STHTD-MP, une méthode qui accélère l'apprentissage hors-politique en s'inspirant directement du comportement de l'agent. Au lieu de se fier à la géométrie classique (covariance des données), l'algo utilise la structure de la politique d'exploration elle-même comme boussole d'optimisation.
Concrètement, c'est du temporal-difference learning — la technique derrière les algos qui jouent aux jeux ou pilotent des robots. Le truc innovant : remplacer la métrique auxiliaire par la matrice de Bellman de la politique comportementale. Ça paraît technique, mais c'est juste de la réutilisation intelligente d'infos déjà disponibles.
Ça paraît technique, mais c'est juste de la réutilisation intelligente d'infos déjà disponibles..
Pourquoi ça compte ? Parce que l'off-policy (apprendre d'observations passées sans suivre la même stratégie) c'est gourmand en données et lent. Cette approche promet des convergences plus rapides avec un seul taux d'apprentissage unifié — moins de tuning, plus d'efficacité.
C'est un signal sec pour qui bosse sur l'RL et l'optimisation stochastique : les meilleures géométries ne sont pas cachées dans les stats des données, elles sont déjà dans le comportement qu'on observe.

