$ skip to content
Tajikistan accueille son premier LLM national0%
Actu

Tajikistan accueille son premier LLM national

Soro, c'est le premier modèle de langage construit spécifiquement pour le tadjik, une langue parlée par 10 millions de personnes mais quasi absente des grands modèles IA. Des chercheurs ont affiné Gem

Tajikistan accueille son premier LLM national
// illustration générée — IA7
/

Soro, c'est le premier modèle de langage construit spécifiquement pour le tadjik, une langue parlée par 10 millions de personnes mais quasi absente des grands modèles IA. Des chercheurs ont affiné Gemma 3 sur 1,9 milliard de tokens en tadjik — web, PDFs, contenus scolaires — puis entraîné un chatbot sur 40K exemples avec style enseignant. L'enjeu : déployer de l'IA utile dans un pays aux connexions internet instables et ressources informatiques limitées, pas juste construire un modèle pour le laisser mourir sur GitHub. Pour l'évaluation, ils ont créé leurs propres benchmarks (connaissance générale, linguistique, examens scolaires) puisque les tests standard ignorent royalement les langues minoritaires. C'est la preuve que les langues exclues de ChatGPT ne sont pas condamnées à rester dans l'ombre : avec un jeu de données curé et de la discipline, même une équipe réduite peut fabriquer de l'IA fonctionnelle. Soro ouvre la voie à une vraie régionalisation des modèles IA, pas juste du fine-tuning cosmétique.

-- glossaire

Continual pretraining

Entraînement supplémentaire d'un modèle existant sur de nouvelles données spécifiques à un domaine ou langue.

Instruction tuning

Ajustement du modèle sur des pairs question-réponse pour le rendre plus conversationnel et aligné aux attentes utilisateur.
[SOURCE] ArXiv AI
// IA7 — L'IA. En clair. Maintenant.