Count Anything : compter n'importe quoi en image

Un nouveau modèle IA généraliste arrive à compter les objets dans n'importe quelle image — foules, cellules au microscope, stocks en entrepôt — à partir d'un simple prompt texte. L'approche divise par

// IA7 · 14/06/26 - 04:30

Count Anything : compter n'importe quoi en image

// illustration générée — IA7

0:00 / 0:00

Le défi technique était colossal : chaque contexte (microscopie, photographie aérienne, imagerie médicale) demandait autrefois son propre modèle entraîné. Count Anything fusionne vision et langage naturel pour adapter son comptage à n'importe quel objet décrit.

Les limites restent visibles : les objets très denses (une foule compacte, des cellules surposées) et les termes ambigus (« un groupe » vs « des individus ») posent encore problème. Le modèle doute quand la définition d'un « objet » devient floue.

C'est un pas vers les systèmes IA vraiment polyvalents — qui passent du spécialisé au généraliste. Mais cette flexibilité naît d'un compromis : on gagne en adaptabilité, on perd un peu en précision extrême. Pas de parade ici, juste une avancée à tempérer.

-- glossaire

Vision-langage multimodal

— Modèle IA capable d'interpréter des images et du texte ensemble pour accomplir une tâche — ici, compter selon la description fournie en prompt.

Généraliste vs spécialisé

— Généraliste : un seul modèle adapté à plusieurs contextes (foule, microscope, satellite). Spécialisé : un modèle par cas d'usage, plus précis mais moins souple.

source

/ feed ↩

Count Anything : compter n'importe quoi en image

-- glossaire

Vision-langage multimodal

Généraliste vs spécialisé

Google standardise les docs pour les agents IA

LLM dialogue adaptative sans réentraînement

Mirage : la mémoire spatiale qui ne perd jamais le fil