$ skip to content
IA7OmniMem : compresser la mémoire des vidéos longues
update

OmniMem : compresser la mémoire des vidéos longues

OmniMem : compresser la mémoire des vidéos longues
// illustration générée — IA7
0:00 / 0:00
/

Des chercheurs proposent OmniMem, une technique de compression mémoire spécifiquement pensée pour les LLMs audio-visuels qui doivent traiter des vidéos longues. Le problème : à chaque token vidéo ajouté, les caches clé-valeur explosent, rendant l'inférence coûteuse en calcul et en mémoire.

La solution tient en deux idées. D'abord, ne pas traiter audio et vidéo de la même façon : les deux modalités génèrent un volume de tokens radicalement différent, donc elles méritent une allocation mémoire séparée. Ensuite, sélectionner intelligemment quels états KV garder — pas au hasard, mais en identifiant ceux qui restent pertinents même après compression.

Le résultat : moins de mémoire consommée, inférence plus rapide, sans perdre la compréhension sur longue durée. C'est le genre d'optimisation qu'on attend pour que les modèles audio-visuels deviennent vraiment utilisables sur des vidéos réelles.

OmniMem représente une direction pragmatique : plutôt que concevoir des architectures révolutionnaires, améliorer l'efficacité des systèmes existants en respectant la nature asymétrique des données multi-modales.

// à savoir

KV cache (Key-Value cache)

Stockage en mémoire des clés et valeurs précalculées dans un transformateur, utilisé pour accélérer l'inférence. Croît linéairement avec la longueur de la séquence.

Modality-aware allocation

Stratégie d'allocation de ressources mémoire différenciée selon la nature de l'entrée (audio, vidéo, texte) plutôt qu'une approche uniforme.
source
/ feed ↩