Le machine learning : une révolution dans l’apprentissage automatique
L’arrivée du machine learning a changé la donne. Mais comment ? L’apprentissage automatique permet à des algorithmes d’analyser d’immenses volumes de données vocales pour apprendre de façon statistique à associer un signal sonore à un texte, sans intervention humaine pour définir chaque règle linguistique.
Du traitement linéaire à l’intelligence des deep neural networks
Les réseaux de neurones profonds (DNN) ont constitué une avancée clé. Ils permettent de :
- Décortiquer le signal audio en patterns complexes (consonnes, voyelles, intonations…).
- Prendre en compte le contexte global d’une phrase, et non pas uniquement les mots isolés.
- S’adapter à l’accent, au débit et à la prononciation du locuteur grâce à l’apprentissage sur des échantillons variés.
Données à l’appui, le taux d’erreur des mots (Word Error Rate – WER) pour l’anglais, par exemple, est passé de 43 % en 1995 à moins de 6 % en 2020 sur les corpus standards comme Switchboard (source : Baidu, Microsoft, Google Research).
Le paradigme du deep learning multilingue
Une innovation majeure est venue de l'entraînement de modèles multilingues uniques, capables de reconnaître plusieurs langues grâce à l'apprentissage de traits linguistiques communs et spécifiques. Les chercheurs, par exemple chez Google avec le modèle Multilingual Speech Recognition (MSR), entraînent aujourd'hui un seul modèle sur des centaines de langues. En 2022, Meta a annoncé un système prenant en charge plus de 100 langues dans les conversations orales.
- Ces modèles utilisent des données massives issues du web, sous-titrages, ou interactions vocales réelles.
- Ils apprennent à “généraliser” : comprendre par exemple que le “r” roulé d’un espagnol et le “r” breton possèdent tous deux des caractéristiques acoustiques, même s’ils n’appartiennent pas à la même langue.
- Parmi les techniques les plus efficaces : le transfer learning, ou apprentissage par transfert, permettant à une langue peu représentée de bénéficier de l’expertise d’un modèle entraîné sur une langue voisine.
Selon Google Research (2023), ces modèles réduisent le taux d’erreur de 20 à 40 % pour les langues à faible ressources comparé aux solutions traditionnelles.