OmniMem : compresser la mémoire des vidéos longues

// IA7 · 09/06/26 - 08:30

Hans Olo09/06/26 - 08:30·2 min·update·ArXiv AI

OmniMem : compresser la mémoire des vidéos longues

// illustration générée — IA7

0:00 / 0:00

Des chercheurs proposent OmniMem, une technique de compression mémoire spécifiquement pensée pour les LLMs audio-visuels qui doivent traiter des vidéos longues. Le problème : à chaque token vidéo ajouté, les caches clé-valeur explosent, rendant l'inférence coûteuse en calcul et en mémoire.

La solution tient en deux idées. D'abord, ne pas traiter audio et vidéo de la même façon : les deux modalités génèrent un volume de tokens radicalement différent, donc elles méritent une allocation mémoire séparée. Ensuite, sélectionner intelligemment quels états KV garder — pas au hasard, mais en identifiant ceux qui restent pertinents même après compression.

Le résultat : moins de mémoire consommée, inférence plus rapide, sans perdre la compréhension sur longue durée. C'est le genre d'optimisation qu'on attend pour que les modèles audio-visuels deviennent vraiment utilisables sur des vidéos réelles.

OmniMem représente une direction pragmatique : plutôt que concevoir des architectures révolutionnaires, améliorer l'efficacité des systèmes existants en respectant la nature asymétrique des données multi-modales.

// à savoir

KV cache (Key-Value cache)

— Stockage en mémoire des clés et valeurs précalculées dans un transformateur, utilisé pour accélérer l'inférence. Croît linéairement avec la longueur de la séquence.

Modality-aware allocation

— Stratégie d'allocation de ressources mémoire différenciée selon la nature de l'entrée (audio, vidéo, texte) plutôt qu'une approche uniforme.

source

/ feed ↩

OmniMem : compresser la mémoire des vidéos longues

// à savoir

KV cache (Key-Value cache)

Modality-aware allocation

LangSmith lance un agent IA sans code

OpenAI rend ses modèles plus sûrs avec l'entraînement par traits

ChatGPT gagne en fiabilité médicale avec GPT-5.5