Les modèles de vision-langage qui pilotent des robots restent fragiles face à l'inattendu. VegAS change la donne : au lieu de foncer sur la première action, l'agent en génère plusieurs, les vérifie via un modèle dédié, puis choisit la plus robuste.
Le problème ? Les MLLMs raisonnent bien en théorie, mais déraillent quand la réalité s'écarte de leurs données d'entraînement. Un robot voit une scène ambiguë, sort une action bancale, et ça casse tout.
C'est surtout une leçon : la GenAI ne suffit pas.
VegAS ajoute une étape de vérification explicite à l'inférence. L'agent explore plusieurs chemins possibles, un verifier évalue lequel tient debout, et l'action gagnante est exécutée. C'est simple mais brutal : ça transforme les agents frêles en quelque chose de vraiment utilisable sur le terrain.
C'est surtout une leçon : la GenAI ne suffit pas. Les agents résilients réclament de la pensée critique, même au moment d'agir.

