Google lance un modèle IA multimodal sans limites

// IA7 · 23/05/26 - 12:30

// illustration générée — IA7

Google vient de dévoiler un modèle IA capable de traiter n'importe quel type de données en entrée et sortie — texte, image, vidéo, audio, sans distinction. C'est un saut qualitatif : jusqu'à présent, les systèmes dominants fonctionnaient en silos (texte-vers-texte, image-vers-texte, etc.).

Ce modèle « anything-to-anything » fonctionne sur une architecture unifiée où tous les types de contenu sont encodés dans le même espace représentationnel. Concrètement, tu peux lui filer une vidéo et demander du texte, ou l'inverse, sans passer par des modèles intermédiaires.

C'est aussi une réponse directe à OpenAI et à Claude, qui explorent les mêmes directions..

L'enjeu est économique et technique : moins de modèles spécialisés à maintenir, plus de fluidité dans les chaînes d'IA des entreprises, et une réduction drastique de la latence. C'est aussi une réponse directe à OpenAI et à Claude, qui explorent les mêmes directions.

Si ce modèle atteint la production, les workflows créatifs et analytiques changent : on passe d'un empilement de services à une couche IA unifiée où le format d'input n'impose plus le modèle utilisé.

-- glossaire

Modèle multimodal

— Système IA capable de traiter et générer plusieurs types de données (texte, image, vidéo, audio) dans un seul modèle unifié.

Anything-to-anything

— Architecture d'IA qui accepte n'importe quel type de contenu en entrée et produit n'importe quel type de contenu en sortie, sans spécialisation.

Encodage unifié

— Technique de représentation où tous les types de données (texte, image, vidéo) sont convertis dans le même espace mathématique pour traitement commun.

[SOURCE] The Verge

// IA7 — L'IA. En clair. Maintenant.