Des chercheurs d'ArXiv proposent de créer des « sondes de données » — des outils systématiques pour comprendre enfin ce qui rend une donnée utile pour les LLM. Actuellement, on procède par essais-erreurs massifs sur des datasets publics, ce qui coûte une fortune en compute.
Le problème : on ne sait toujours pas *pourquoi* telle caractéristique de donnée pousse un modèle à se comporter comme ceci ou comme cela. On a des heuristiques empiriques, pas des principes. Le papier propose de générer des séquences synthétiques à partir de processus aléatoires bien définis, pour isoler les variables qui comptent vraiment.
Si ça marche, ça change la donne.
Si ça marche, ça change la donne. Fini le trial-and-error coûteux — on pourrait prédire l'impact d'une donnée avant même de la trainer. Les équipes pourraient optimiser leurs pipelines data sans brûler des millions en GPU.

