Google a dévoilé neuf démos de Gemini Omni et Gemini 3.5 lors de la Google I/O 2026, montrant des capacités de traitement multimodal inédites. Le modèle phare Gemini Omni fonctionne nativement en audio, vidéo et texte, sans passer par des conversions intermédiaires — ce qui change vraiment la latence et la fluidité d'interaction.
Les vidéos mettent en avant des cas d'usage concrets : compréhension de contexte complexe, interactions temps réel, et réponses qui intègrent plusieurs types de données simultanément. Gemini 3.5 affine les performances sur des tâches spécialisées, tandis que Omni se positionne comme le modèle généraliste de nouvelle génération.
Cette annonce marque une accélération visible dans la course avec OpenAI et Anthropic.
Cette annonce marque une accélération visible dans la course avec OpenAI et Anthropic. Google abandonne progressivement le pattern des modèles unimodaux pour entrer de plain-pied dans le vrai multimodal, où l'IA comprend et génère en parallèle.

