HuggingFace a mis les modèles ASR frontier (reconnaissance vocale) à l'épreuve sur du code-switching — quand on mélange deux langues dans une même phrase, comme du français-anglais en conversation réelle. Résultat : les meilleurs modèles du marché patinent sérieusement. C'est un problème concret pour les centres d'appels, les assistants vocaux, ou même les applis de traduction. Le benchmark révèle des écarts de performance énormes selon les paires de langues testées, et surtout qu'aucun modèle n'est vraiment prêt pour du client bilingue en production.
Le code-switching n'est pas une bizarrerie académique : c'est comment parlent les gens dans les régions multilingues, les immigrés, les équipes internationales. Si ton agent vocal se bloque dès qu'on switch de langue à mi-phrase, tu perds le client. HuggingFace montre les chiffres bruts — et c'est brutal. Les modèles commerciaux les plus avancés (Whisper, Llama Speech, etc.) gèrent le code-switching à 60-75% de précision là où ils atteignent 95%+ en monolingue.



