DeepMind lance Gemma 4 12B, un modèle multimodal sans encodeur dédié qui traite texte, image et audio dans un seul flux. C'est plus léger, plus rapide et moins gourmand en ressources que ses prédécesseurs — idéal pour les déploiements sur appareil ou serveur modeste.
L'architecture unifiée signifie que tout transite par le même réseau de neurones : pas de détour par un encodeur vision séparé, pas d'latence additionnelle. Le gain est concret sur l'inférence et la latence, critiques pour les applications temps réel.
Gemma 4 12B rejoint la famille des petits modèles polyvalents, à côté de Mistral et Llama 3.1 405B en version légère. DeepMind continue sa stratégie d'open-source : le modèle est disponible sous licence libre, sur Hugging Face et via Google Cloud.
Le défi reste la concurrence sur le marché des petits multimodaux : les gains de performance doivent convaincre face aux alternatives, et l'adoption dépend surtout de la documentation et des cas d'usage industriels.



