Des chercheurs ont identifié pourquoi les petits modèles de langage échouent sur des tâches peu fréquentes : l'apprentissage des tâches courantes les efface constantement. Une étude couvrant des modèles de 4 millions à 4 milliards de paramètres révèle ce mécanisme d'interférence en détail.
La bonne nouvelle : pas besoin de scaler le modèle. Il suffit d'augmenter la fréquence de la tâche cible dans les données d'entraînement. C'est une parade simple et efficace pour les équipes avec des ressources limitées.
Concrètement, cela signifie qu'un petit modèle bien nourri peut rivaliser avec un gros modèle mal nourri sur des cas d'usage spécifiques. La stratégie de data curation devient aussi importante que la taille brute du réseau.
Pour les producteurs et les équipes qui déploient de l'IA en production, c'est un levier d'optimisation sous-exploré : avant de monter en paramètres (coûteux), rebalancer les proportions dans le training data.

