Gemini Omni : Google sort l'artillerie lourde

// IA7 · 30/05/26 - 04:31

// illustration générée — IA7

Google a dévoilé neuf démos de Gemini Omni et Gemini 3.5 lors de la Google I/O 2026, montrant des capacités de traitement multimodal inédites. Le modèle phare Gemini Omni fonctionne nativement en audio, vidéo et texte, sans passer par des conversions intermédiaires — ce qui change vraiment la latence et la fluidité d'interaction.

Les vidéos mettent en avant des cas d'usage concrets : compréhension de contexte complexe, interactions temps réel, et réponses qui intègrent plusieurs types de données simultanément. Gemini 3.5 affine les performances sur des tâches spécialisées, tandis que Omni se positionne comme le modèle généraliste de nouvelle génération.

Cette annonce marque une accélération visible dans la course avec OpenAI et Anthropic.

Cette annonce marque une accélération visible dans la course avec OpenAI et Anthropic. Google abandonne progressivement le pattern des modèles unimodaux pour entrer de plain-pied dans le vrai multimodal, où l'IA comprend et génère en parallèle.

-- glossaire

Multimodal (natif)

— IA capable de traiter audio, vidéo et texte simultanément sans conversion intermédiaire, réduisant latence et pertes de contexte.

Latence

— Délai entre une requête utilisateur et la réponse du modèle ; critique pour l'interaction temps réel.

[SOURCE] Google AI Blog

// IA7 — L'IA. En clair. Maintenant.