Les chercheurs veulent déverrouiller l'ADN des données

Des chercheurs d'ArXiv proposent de créer des « sondes de données » — des outils systématiques pour comprendre enfin ce qui rend une donnée utile pour les LLM. Actuellement, on procède par essais-erre

// IA7 · 20/05/26 - 06:00

Les chercheurs veulent déverrouiller l'ADN des données

// illustration générée — IA7

Le problème : on ne sait toujours pas *pourquoi* telle caractéristique de donnée pousse un modèle à se comporter comme ceci ou comme cela. On a des heuristiques empiriques, pas des principes. Le papier propose de générer des séquences synthétiques à partir de processus aléatoires bien définis, pour isoler les variables qui comptent vraiment.

Si ça marche, ça change la donne.

Si ça marche, ça change la donne. Fini le trial-and-error coûteux — on pourrait prédire l'impact d'une donnée avant même de la trainer. Les équipes pourraient optimiser leurs pipelines data sans brûler des millions en GPU.

-- glossaire

Data probes

— Méthodologies systématiques pour générer et tester des séquences synthétiques afin d'isoler l'impact des caractéristiques de données sur le comportement des LLM.

Empirical heuristics

— Règles pratiques dérivées d'expériences répétées sur des datasets, sans compréhension théorique sous-jacente.

[SOURCE] ArXiv AI

// IA7 — L'IA. En clair. Maintenant.