ByteDance vient de démontrer qu'un petit modèle multimodal de 7 milliards de paramètres surpasse des modèles bien plus gros sur la compréhension de documents longs et visuels. Au lieu de forcer le modèle à transcrire du texte page après page, l'équipe l'a entraîné en lui posant des questions directes et en lui laissant trouver les passages pertinents seul. Résultat : le 7B fait jeu égal avec des géants, même sur des documents quatre fois plus longs que ceux vus en phase d'entraînement.
Cette approche chamboule la méthode classique. Historiquement, on empilait du texte transcrit dans les données d'entraînement en espérant que le modèle absorberait tout. ByteDance montre qu'une stratégie Question-Réponse + extraction de passages est bien plus efficace pour la retention et la généralisation.
Cette approche chamboule la méthode classique.
L'enjeu ? Les systèmes RAG et les assistants documentaires sont utilisés partout en entreprise. Un petit modèle rapide et fiable vaut mieux qu'un gros modèle lent et approximatif. ByteDance vient de prouver qu'on n'a pas besoin de GPT-4 pour se débrouiller.
Cette découverte redessine les priorités en fine-tuning : la qualité des données d'entraînement (et la nature des tâches) prime sur le brut numérique. Les boîtes vont pouvoir déployer des modèles légers en production sans sacrifier la fiabilité.

