Passeur direct au contenu principal
Translator
Cette page a été automatiquement traduite par le service de traduction automatique de Microsoft Translator. Pour en savoir plus

Blog de Microsoft Translator

Traduction multilingue à grande échelle : 10000 paires de langues et au-delà

Microsoft est en quête de L’IA à grande échelle avec une grande ambition de permettre la prochaine génération d’expériences d’IA. Le traducteur Microsoft ZCode travaille avec Microsoft Project Turing et Microsoft Research Asia pour faire progresser la prise en charge linguistique et multilingue au cœur de cette initiative. Nous continuons à repousser les frontières avec des modèles multilingues pour prendre en charge divers scénarios linguistiques à travers Microsoft. L’été dernier, nous avons annoncé notre grande échelle Mélange multilingue d’experts modèle avec Vitesse profonde qui peuvent surpasser les modèles bilingues individuels à grande échelle. Récemment, le dernier modèle de représentation universelle du langage de Turing (T-ULRv5), un modèle créé par Microsoft est une fois de plus à la pointe de la technologie et au sommet de Google Classement public XTREME à ce moment-là. Plus récemment, Microsoft a annoncé le plus grand Megatron-Turing NLG 530B modèle de paramètres.

La conférence annuelle sur la traduction automatique (alias WMT 2021) s’est terminée la semaine dernière dans la belle ville de Punta Cana, en République dominicaine. WMT rassemble des chercheurs de l’ensemble du domaine de la traduction automatique, de l’industrie et du monde universitaire, pour participer à une série de tâches partagées, chacune définissant une référence dans un domaine important de la traduction automatique pour pousser le domaine vers de nouvelles frontières.

L’équipe Microsoft Translator ZCode, en collaboration avec l’équipe Turing et Microsoft Research Asia, a concouru dans la piste « Traduction multilingue à grande échelle », qui consistait en une tâche complète de traduction entre les 10 000 directions dans 101 langues et deux petites tâches: l’une axée sur 5 langues d’Europe centrale et méridionale et l’autre sur 5 langues d’Asie du Sud-Est. Le modèle Microsoft ZCode-DeltaLM a remporté les trois tâches par d’énormes marges, y compris un gain incroyable de plus de 10 points par rapport au modèle M2M100 dans la grande tâche évaluée sur un énorme 10 000 paires de langues. (Conclusions de la tâche partagée WMT 2021 sur la traduction automatique multilingue à grande échelle, Wenzek et coll., WMT 2021).

Figure 1 : Résultats officiels (scores de l’UEBL) sur la tâche complète et la petite tâche1 lors de la tâche partagée WMT 2021 Traduction multilingue à grande échelle

L’approche ZCode-DeltaLM

Dans cet article de blog, jetons un coup d’œil sous le capot au modèle gagnant Microsoft ZCode-DeltaLM. Notre point de départ était DeltaLM (DeltaLM : Pré-formation encodeur-décodeur pour la génération et la traduction de langues en augmentant les encodeurs multilingues préformés), le dernier né de la série de plus en plus puissante de modèles de langage préformés massivement multilingues de Microsoft.


DeltaLM est un modèle d’encodeur-décodeur, mais au lieu de s’entraîner à partir de zéro, il est initialisé à partir d’un modèle d’encodeur de pointe préalablement préentraîné, en particulier (TULRv3). Bien que l’initialisation de l’encodeur soit simple, le décodeur l’est moins, car il ajoute une attention croisée à l’auto-attention de l’encodeur. DeltaLM résout ce problème avec une nouvelle architecture entrelacée, où l’auto-attention et l’attention croisée alternent entre les couches, avec l’auto-attention utilisée dans les couches impaires et l’attention croisée utilisée dans les couches pairs. Avec cet entrelacement, la structure du décodeur correspond à l’encodeur, et peut donc également être initialisée de la même manière à partir de TULRv3.

DeltaLM est complété par le puissant apprentissage multitâche ZCode : Apprentissage multitâche pour la traduction automatique neuronale multilingue. Nos modèles montrent que la combinaison de l’apprentissage multitâche et multilingue peut améliorer considérablement la formation pour les modèles linguistiques préformés à grande échelle. Un tel paradigme d’apprentissage multilingue multitâche tire parti du biais inductif et de la régularisation de plusieurs tâches et langues simultanément pour mieux performer sur diverses tâches en aval. Nous utilisons la tâche de traduction, la tâche d’encodeur automatique et la tâche de corruption de la plage de traduction, comme illustré dans la figure ci-dessous.

Gagner la piste de traduction massivement multilingue

Pour construire notre système de traduction massivement multilingue gagnant (Systèmes de traduction automatique multilingues de Microsoft pour la tâche partagée WMT21), nous avons commencé avec zCode-DeltaLM, et ajouté quelques astuces.

Nous appliquons l’apprentissage progressif, en formant d’abord un modèle avec 24 couches d’encodeur et 12 couches de décodeur, puis en continuant la formation avec 12 couches d’encodeur ajoutées, ce qui donne un encodeur profond de 36 couches. Pour couvrir toutes les paires de langues, nous générons des données double-pseudo-parallèle où les deux côtés des données parallèles sont synthétiques, traduits par le modèle de l’anglais. Nous appliquons également une rétro-traduction itérative pour générer des données synthétiques. Nous appliquons l’apprentissage du programme, en commençant par l’ensemble des données d’entraînement bruyantes, puis en les réduisant à un sous-ensemble propre. Nous re-pondérons l’objectif de traduction pour privilégier les données parallèles par rapport à la rétro-traduction et aux données double-pseudo-parallèles. Nous appliquons l’échantillonnage de température pour équilibrer les paires de langues. Pour chaque paire de langues, nous choisissons, en fonction de l’ensemble de développement, de préférer la traduction directe ou la traduction pivotante en anglais.

En mettant tout cela ensemble, nous savions que nous avions un système massivement multilingue incroyable, mais les résultats officiels sur l’ensemble de tests à l’aveugle ont dépassé nos attentes. Nous avons obtenu un score de 2,5 à 9 points UEBL devant le concurrent suivant, et de 10 à 21 points BLEU devant le modèle M2M-175 de base. Lors du test de développement, nous avons comparé au plus grand modèle M2M-615, que nous avons également battu de 10 à 18 points.

Au-delà de la traduction : la génération universelle de langues

Bien que nous soyons enthousiasmés par la grande victoire à WMT 2021, ce qui est encore plus excitant, c’est que, contrairement aux autres concurrents, notre modèle ZCode-DeltaLM n’est pas seulement un modèle de traduction, mais plutôt un modèle de langage encodeur-décodeur préformé général, utilisable pour toutes sortes de tâches de génération au-delà de la traduction. Cela permet vraiment à nos modèles de bien fonctionner sur diverses tâches de génération de langage naturel multilingue.

Nous avons atteint un nouveau SOTA dans de nombreuses tâches de génération populaires de GEM Benchmark, y compris Wikilingua (résumé), la simplification de texte (WikiAuto) et la structure en texte (WebNLG). Le modèle DeltaLM-ZCode surpasse largement les modèles beaucoup plus grands tels que mT5 XL (3.7B) qui est également formé sur des données beaucoup plus grandes. Cela a démontré l’efficacité et la polyvalence des modèles, ce qui a conduit à de solides performances dans de nombreuses tâches.

Graphique 2. Performances (scores RL) de ZCode-DeltaLM sur les tâches de synthèse et de simplification de texte dans le benchmark GEM

Regard vers l’avenir

La traduction automatique multilingue a atteint un point où elle fonctionne très bien, dépassant les systèmes bilingues, à la fois sur les langues à ressources faibles et élevées. Les modèles De mélange d’experts (MoE) se sont avérés être un très bon choix pour mettre à l’échelle de tels modèles, comme cela a été montré dans GShard. Nous explorons comment mettre à l’échelle efficacement de tels modèles avec Mixture of Experts: Formation MoE évolutive et efficace pour les modèles multilingues multitâches. Les modèles MoE avec des données multilingues massives et une formation multitâche non supervisée offrent une opportunité sans précédent pour ces modèles de fournir des systèmes véritablement universels qui peuvent permettre à l’équipe Microsoft Translator d’éliminer les barrières linguistiques à travers le monde, ainsi que de prendre en charge une variété de tâches de génération de langage naturel.

Remerciements

Nous tenons à remercier Francisco Guzman et son équipe qui ont collecté l’ensemble de test FLORES massivement multilingue et organisé cette piste WMT avec une évaluation à si grande échelle.