DeepMind vient de proposer le « Pointer Engineering » — remplacer les prompts textuels par des pointeurs visuels pour diriger les modèles d'IA.
La logique tient debout : au lieu de décrire ce que tu veux, tu montres où tu le veux. Un curseur devient la variable centrale du contexte. C'est moins verbose, plus intuitif, et ça colle mieux à la façon dont on interagit réellement avec les écrans. Les modèles apprendraient à interpréter cette position comme un signal d'intention.
Un curseur devient la variable centrale du contexte.
Le détail qui tue ? C'est une couche d'abstraction plus proche du hardware qu'une string texte. Ça ouvre des portes sur la façon dont on peut encoder l'intention sans passer par le langage naturel. Moins de « décris-moi ce que tu veux », plus de « je te montre ».
Si ça tient ses promesses, ça change la donne pour les interfaces IA — moins d'hallucinations dues à des instructions imprécises, plus de précision brute. Reste à voir si les modèles actuels peuvent vraiment capitaliser sur ce signal là où les prompts échouent.

