Des chercheurs proposent OmniMem, une technique de compression mémoire spécifiquement pensée pour les LLMs audio-visuels qui doivent traiter des vidéos longues. Le problème : à chaque token vidéo ajouté, les caches clé-valeur explosent, rendant l'inférence coûteuse en calcul et en mémoire.
La solution tient en deux idées. D'abord, ne pas traiter audio et vidéo de la même façon : les deux modalités génèrent un volume de tokens radicalement différent, donc elles méritent une allocation mémoire séparée. Ensuite, sélectionner intelligemment quels états KV garder — pas au hasard, mais en identifiant ceux qui restent pertinents même après compression.
Le résultat : moins de mémoire consommée, inférence plus rapide, sans perdre la compréhension sur longue durée. C'est le genre d'optimisation qu'on attend pour que les modèles audio-visuels deviennent vraiment utilisables sur des vidéos réelles.
OmniMem représente une direction pragmatique : plutôt que concevoir des architectures révolutionnaires, améliorer l'efficacité des systèmes existants en respectant la nature asymétrique des données multi-modales.



