$ skip to content
Les chercheurs veulent déverrouiller l'ADN des données0%
Actu

Les chercheurs veulent déverrouiller l'ADN des données

Des chercheurs d'ArXiv proposent de créer des « sondes de données » — des outils systématiques pour comprendre enfin ce qui rend une donnée utile pour les LLM. Actuellement, on procède par essais-erre

Les chercheurs veulent déverrouiller l'ADN des données
// illustration générée — IA7
/

Des chercheurs d'ArXiv proposent de créer des « sondes de données » — des outils systématiques pour comprendre enfin ce qui rend une donnée utile pour les LLM. Actuellement, on procède par essais-erreurs massifs sur des datasets publics, ce qui coûte une fortune en compute.

Le problème : on ne sait toujours pas *pourquoi* telle caractéristique de donnée pousse un modèle à se comporter comme ceci ou comme cela. On a des heuristiques empiriques, pas des principes. Le papier propose de générer des séquences synthétiques à partir de processus aléatoires bien définis, pour isoler les variables qui comptent vraiment.

Si ça marche, ça change la donne.

Si ça marche, ça change la donne. Fini le trial-and-error coûteux — on pourrait prédire l'impact d'une donnée avant même de la trainer. Les équipes pourraient optimiser leurs pipelines data sans brûler des millions en GPU.

-- glossaire

Data probes

Méthodologies systématiques pour générer et tester des séquences synthétiques afin d'isoler l'impact des caractéristiques de données sur le comportement des LLM.

Empirical heuristics

Règles pratiques dérivées d'expériences répétées sur des datasets, sans compréhension théorique sous-jacente.
[SOURCE] ArXiv AI
// IA7 — L'IA. En clair. Maintenant.