Google vient de dévoiler un modèle IA capable de traiter n'importe quel type de données en entrée et sortie — texte, image, vidéo, audio, sans distinction. C'est un saut qualitatif : jusqu'à présent, les systèmes dominants fonctionnaient en silos (texte-vers-texte, image-vers-texte, etc.).
Ce modèle « anything-to-anything » fonctionne sur une architecture unifiée où tous les types de contenu sont encodés dans le même espace représentationnel. Concrètement, tu peux lui filer une vidéo et demander du texte, ou l'inverse, sans passer par des modèles intermédiaires.
C'est aussi une réponse directe à OpenAI et à Claude, qui explorent les mêmes directions..
L'enjeu est économique et technique : moins de modèles spécialisés à maintenir, plus de fluidité dans les chaînes d'IA des entreprises, et une réduction drastique de la latence. C'est aussi une réponse directe à OpenAI et à Claude, qui explorent les mêmes directions.
Si ce modèle atteint la production, les workflows créatifs et analytiques changent : on passe d'un empilement de services à une couche IA unifiée où le format d'input n'impose plus le modèle utilisé.

