Soro, c'est le premier modèle de langage construit spécifiquement pour le tadjik, une langue parlée par 10 millions de personnes mais quasi absente des grands modèles IA. Des chercheurs ont affiné Gemma 3 sur 1,9 milliard de tokens en tadjik — web, PDFs, contenus scolaires — puis entraîné un chatbot sur 40K exemples avec style enseignant. L'enjeu : déployer de l'IA utile dans un pays aux connexions internet instables et ressources informatiques limitées, pas juste construire un modèle pour le laisser mourir sur GitHub. Pour l'évaluation, ils ont créé leurs propres benchmarks (connaissance générale, linguistique, examens scolaires) puisque les tests standard ignorent royalement les langues minoritaires. C'est la preuve que les langues exclues de ChatGPT ne sont pas condamnées à rester dans l'ombre : avec un jeu de données curé et de la discipline, même une équipe réduite peut fabriquer de l'IA fonctionnelle. Soro ouvre la voie à une vraie régionalisation des modèles IA, pas juste du fine-tuning cosmétique.
Tajikistan accueille son premier LLM national0%Actu
Tajikistan accueille son premier LLM national
Soro, c'est le premier modèle de langage construit spécifiquement pour le tadjik, une langue parlée par 10 millions de personnes mais quasi absente des grands modèles IA. Des chercheurs ont affiné Gem

// illustration générée — IA7
/
// IA7 — L'IA. En clair. Maintenant.