Saltear al contenido principal
Translator
Esta página ha sido traducida automáticamente por el servicio de traducción automática de Microsoft Translator. Aprende más

Microsoft Translator blog

Traducción multilingüe a escala: 10000 pares de idiomas y más

Microsoft está en la búsqueda de IA a escala con una gran ambición para hacer posible la próxima generación de experiencias de IA. El traductor de Microsoft ZCode equipo está trabajando junto con Proyecto Turing de Microsoft y Microsoft Research Asia para avanzar en el soporte lingüístico y multilingüe en el centro de esta iniciativa. Seguimos ampliando las fronteras con modelos multilingües para dar soporte a varios escenarios lingüísticos en todo Microsoft. El verano pasado, anunciamos nuestro proyecto a gran escala Mezcla multilingüe de expertos modelo con DeepSpeed que pueden superar a los modelos bilingües individuales a gran escala. Recientemente, el último modelo de representación lingüística universal de Turing (T-ULRv5), un modelo creado por Microsoft vuelve a ser el más avanzado y a estar en la cima de la lista de Google Tabla de clasificación pública de XTREME en ese momento. Más recientemente, Microsoft anunció la mayor Megatron-Turing NLG 530B modelo de parámetros.

La Conferencia anual sobre Traducción Automática (también conocida como WMT 2021) concluyó la semana pasada en la hermosa Punta Cana, República Dominicana. La WMT reúne a investigadores de todo el campo de la traducción automática, tanto de la industria como del mundo académico, para participar en una serie de tareas compartidas, cada una de las cuales define un punto de referencia en un área importante de la traducción automática para impulsar el campo hacia nuevas fronteras.

El equipo ZCode de Microsoft Translator, en colaboración con el equipo Turing y Microsoft Research Asia, compitió en la pista "Traducción multilingüe a gran escala", que consistía en una tarea completa de traducción entre las 10.000 direcciones en 101 idiomas, y dos tareas pequeñas: Una centrada en 5 idiomas de Europa central y meridional, y otra en 5 idiomas del sudeste asiático. El modelo ZCode-DeltaLM de Microsoft ganó las tres tareas por márgenes enormes, incluyendo una increíble ganancia de más de 10 puntos sobre el modelo M2M100 en la tarea grande evaluada en una enorme cantidad de 10.000 pares de idiomas. (Resultados de la tarea compartida de WMT 2021 sobre traducción automática multilingüe a gran escalaWenzek et al, WMT 2021).

Figura 1: Resultados oficiales (puntuaciones BLEU) de la tarea completa y de la tarea pequeña1 en la tarea compartida de traducción multilingüe a gran escala del WMT 2021

El enfoque ZCode-DeltaLM

En esta entrada del blog, vamos a echar un vistazo bajo el capó del modelo ganador de Microsoft ZCode-DeltaLM. Nuestro punto de partida fue DeltaLM (DeltaLM: preentrenamiento de codificadores-decodificadores para la generación y traducción de idiomas mediante el aumento de codificadores multilingües preentrenados), el último de la cada vez más potente serie de modelos lingüísticos preentrenados masivamente multilingües de Microsoft.


DeltaLM es un modelo codificador-decodificador, pero en lugar de entrenarse desde cero, se inicializa a partir de un modelo de estado del arte previamente preentrenado de sólo codificador, concretamente (TULRv3). Mientras que la inicialización del codificador es sencilla, el decodificador no lo es tanto, ya que añade la atención cruzada a la autoatención del codificador. DeltaLM resuelve este problema con una novedosa arquitectura intercalada, en la que la autoatención y la atención cruzada se alternan entre las capas, utilizándose la autoatención en las capas impares y la atención cruzada en las capas pares. Con este intercalado, la estructura del decodificador coincide con la del codificador, por lo que también se puede inicializar de la misma manera desde TULRv3.

DeltaLM se complementa con el potente aprendizaje multitarea de ZCode: Aprendizaje multitarea para la traducción automática neuronal multilingüe. Nuestros modelos muestran que la combinación de aprendizaje multitarea y multilingüe puede mejorar significativamente el entrenamiento de modelos lingüísticos preformados a gran escala. Este paradigma de aprendizaje multilingüe multitarea aprovecha el sesgo inductivo y la regularización de varias tareas e idiomas simultáneamente para mejorar el rendimiento en varias tareas posteriores. Estamos utilizando la tarea de traducción, la tarea de autocodificación de eliminación de ruido y la tarea de corrupción de la extensión de la traducción, como se muestra en la figura siguiente.

Ganar la pista de traducción masiva multilingüe

Para construir nuestro sistema ganador de traducción multilingüe masiva (Sistemas de traducción automática multilingüe de Microsoft para la tarea compartida WMT21), empezamos con zCode-DeltaLM, y añadimos algunos trucos.

Aplicamos el aprendizaje progresivo, entrenando primero un modelo con 24 capas de codificación y 12 capas de decodificación, para luego seguir entrenando con 12 capas de codificación añadidas, lo que da como resultado un codificador profundo de 36 capas. Para cubrir todos los pares de idiomas, generamos datos duales-pseudoparalelos en los que ambos lados de los datos paralelos son sintéticos, traducidos por el modelo a partir del inglés. También aplicamos la retrotraducción iterativa para generar datos sintéticos. Aplicamos el aprendizaje curricular, comenzando con todos los datos de entrenamiento ruidosos y reduciéndolos después a un subconjunto limpio. Volvemos a ponderar el objetivo de traducción para favorecer los datos paralelos frente a los datos de retrotraducción y de doble pseudoparalelo. Aplicamos el muestreo de temperatura para equilibrar los pares de idiomas. Para cada par de idiomas, elegimos, basándonos en el conjunto dev, si preferimos la traducción directa o la traducción pivotante a través del inglés.

En conjunto, sabíamos que teníamos un sistema multilingüe masivo increíble, pero los resultados oficiales en el conjunto de pruebas ciegas superaron nuestras expectativas. Obtuvimos entre 2,5 y 9 BLEU más que el siguiente competidor, y entre 10 y 21 puntos BLEU más que el modelo M2M-175 de referencia. En la prueba de desarrollo nos comparamos con el modelo M2M-615, de mayor tamaño, al que también superamos entre 10 y 18 puntos.

Más allá de la traducción: Generación de Lenguas Universales

Aunque estamos entusiasmados con la gran victoria en el WMT 2021, lo que es aún más emocionante es que, a diferencia de los demás competidores, nuestro modelo ZCode-DeltaLM no es solo un modelo de traducción, sino más bien un modelo lingüístico codificador-decodificador general preentrenado, utilizable para todo tipo de tareas de generación más allá de la traducción. Esto realmente permite que nuestros modelos se desempeñen bastante bien en diversas tareas de generación de lenguaje natural multilingüe.

Alcanzamos un nuevo SOTA en muchas tareas de generación popular de Referencia GEMEl modelo DeltaLM-ZCode supera ampliamente a modelos mucho más grandes, como el mT5 XL (3,7B), que también ha sido entrenado con datos mucho más grandes. El modelo DeltaLM-ZCode superó ampliamente a modelos mucho más grandes, como mT5 XL (3,7B), que también se entrenó con datos mucho más grandes. Esto demostró la eficacia y la versatilidad de los modelos, que permiten un gran rendimiento en muchas tareas.

Figura 2. Rendimiento (puntuaciones RL) de ZCode-DeltaLM en las tareas de resumen y simplificación de textos en la prueba de referencia GEM

Mirando al futuro

La traducción automática multilingüe ha llegado a un punto en el que rinde muy bien, superando a los sistemas bilingües, tanto en lenguas de bajos como de altos recursos. Los modelos de Mezcla de Expertos (MoE) han demostrado ser muy adecuados para escalar dichos modelos, como se ha demostrado en GShard. Exploramos cómo escalar eficientemente tales modelos con la Mezcla de Expertos: Entrenamiento escalable y eficiente del ME para modelos multilingües multitarea. Los modelos MoE con datos multilingües masivos y entrenamiento multitarea no supervisado presentan una oportunidad sin precedentes para que estos modelos proporcionen sistemas verdaderamente universales que puedan permitir al equipo de Microsoft Translator eliminar las barreras lingüísticas en todo el mundo, así como apoyar una variedad de tareas de generación de lenguaje natural.

Agradecimientos

Nos gustaría reconocer y agradecer a Francisco Guzmán y a su equipo por haber recopilado el conjunto de pruebas multilingües de FLORES y por haber organizado este tema de la WMT con una evaluación a tan gran escala.