Gemma 4 12B : le modèle multimodal qui change la donne

// IA7 · 10/06/26 - 12:30

Hans Olo10/06/26 - 12:30·3 min·update·DeepMind Blog

Gemma 4 12B : le modèle multimodal qui change la donne

// illustration générée — IA7

0:00 / 0:00

DeepMind lance Gemma 4 12B, un modèle multimodal sans encodeur dédié qui traite texte, image et audio dans un seul flux. C'est plus léger, plus rapide et moins gourmand en ressources que ses prédécesseurs — idéal pour les déploiements sur appareil ou serveur modeste.

L'architecture unifiée signifie que tout transite par le même réseau de neurones : pas de détour par un encodeur vision séparé, pas d'latence additionnelle. Le gain est concret sur l'inférence et la latence, critiques pour les applications temps réel.

Gemma 4 12B rejoint la famille des petits modèles polyvalents, à côté de Mistral et Llama 3.1 405B en version légère. DeepMind continue sa stratégie d'open-source : le modèle est disponible sous licence libre, sur Hugging Face et via Google Cloud.

Le défi reste la concurrence sur le marché des petits multimodaux : les gains de performance doivent convaincre face aux alternatives, et l'adoption dépend surtout de la documentation et des cas d'usage industriels.

// à savoir

Modèle multimodal

— Modèle IA capable de traiter plusieurs types de données (texte, image, audio) dans un seul réseau, sans encodeurs distincts.

Encodeur dédié

— Module séparé qui transforme les données visuelles ou audio avant qu'elles ne soient traitées par le cœur du modèle — plus lent et lourd.

Inférence

— Le processus d'exécution du modèle sur de nouvelles données pour obtenir une prédiction ou une sortie.

source

/ feed ↩