Les algorithmes d'apprentissage par renforcement hors-ligne (off-policy) fonctionnent comme des voitures sans freins : ils accélèrent en observant les autres, mais dérivent. Le temporal-difference (TD) classique balance entre stabilité et précision — améliorer l'une casse l'autre.
Depuis des années, Emphatic TD (ETD) promettait de résoudre ce conflit en repondérant intelligemment les trajectoires observées. Mais ses traces (follow-on traces) explosaient en variance : du bruit qui noie le signal.
Des chercheurs d'arXiv viennent de court-circuiter le piège.
Des chercheurs d'arXiv viennent de court-circuiter le piège. Leur trick : centrer les erreurs de Bellman — le cœur du TD. En apparence bête. Sauf qu'une centering naïve déclenche une récursion parasite qui détruit la stabilité matrix de l'algorithme. Eux ? Ils régularisent *uniquement* cette récursion, préservant intacte la trace principale.
Résultat : RETD (Regularized Emphatic TD) stable dans 36+ mois d'interaction, sans exploser en mémoire, sans dériver. Testable immédiatement sur des environnements robotique complexes.
C'est un fix mineur en apparence. Mais c'est la différence entre un algo qui scale en production et 5 ans de patchs.

