Pular para o conteúdo principal
Translator
Esta página foi traduzida automaticamente pelo serviço de tradução automática do Microsoft Translator. Saiba Mais

Microsoft Tradutor blog

Tradução multilingue à escala: 10000 pares de línguas e mais

A Microsoft está em busca de IA à Escala com grande ambição para permitir a próxima geração de experiências de IA. O Tradutor Microsoft Código ZCode a equipa está a trabalhar em conjunto com Projecto Microsoft Turing e Microsoft Research Asia para fazer avançar o apoio linguístico e multilingue no centro desta iniciativa. Continuamos a empurrar as fronteiras com modelos multilingues para apoiar vários cenários linguísticos através da Microsoft. No Verão passado, anunciámos a nossa grande escala Mistura Multi-Linguística de Peritos modelo com DeepSpeed que podem superar os modelos individuais bi-linguísticos de grande escala. Recentemente, o mais recente modelo de representação linguística universal Turing (T-ULRv5), um modelo criado pela Microsoft é, mais uma vez, o estado da arte e no topo do Google XTREME quadro de liderança pública nessa altura. Mais recentemente, a Microsoft anunciou o maior Megatron-Turing NLG 530B modelo de parâmetros.

A Conferência anual sobre tradução automática (aka WMT 2021) terminou na semana passada na bela Punta Cana, República Dominicana. WMT reúne investigadores de todo o campo da tradução automática, tanto da indústria como do meio académico, para participar numa série de tarefas partilhadas, cada uma delas definindo uma referência numa importante área de tradução automática para empurrar o campo para novas fronteiras.

A equipa do Microsoft Translator ZCode, trabalhando em conjunto com a equipa Turing e a Microsoft Research Asia, competiu na pista "Tradução Multilingue em Grande Escala", que consistiu numa tarefa completa de tradução entre todas as 10.000 direcções em 101 línguas, e duas pequenas tarefas: Uma centrada em 5 línguas do centro e sul da Europa, e outra em 5 línguas do sudeste asiático. O modelo Microsoft ZCode-DeltaLM ganhou as três tarefas por enormes margens, incluindo um incrível ganho de 10+ pontos sobre o modelo M2M100 na grande tarefa avaliada em enormes 10.000 pares de línguas. (Descobertas da Tarefa Partilhada da WMT 2021 sobre Tradução de Máquinas Multilingues em Grande EscalaWenzek et al, WMT 2021).

Figura 1: Resultados Oficiais (pontuações BLEU) na Tarefa Completa e na Tarefa Pequena1 na tarefa partilhada de Tradução Multilingue em Grande Escala WMT 2021

A abordagem ZCode-DeltaLM

Neste post de blogue, vamos dar uma vista de olhos debaixo do capô ao modelo vencedor do Microsoft ZCode-DeltaLM. O nosso ponto de partida foi o DeltaLM (DeltaLM: Pré-formação de Codificadores-Descodificadores para a Geração e Tradução de Línguas através do aumento de Codificadores Multilingues Pré-formados), a última da série cada vez mais poderosa de modelos linguísticos multilingues de língua pré-treinados da Microsoft.


DeltaLM é um modelo codificador-descodificador, mas em vez de treino a partir do zero, é inicializado a partir de um modelo previamente pré-treinado e de última geração apenas codificador, especificamente (TULRv3). Embora a inicialização do codificador seja simples, o descodificador é menos simples, uma vez que acrescenta uma atenção cruzada à auto-atenção do codificador. O DeltaLM resolve este problema com uma nova arquitectura intercalada, onde a auto-atenção e a atenção cruzada alternam entre camadas, com a auto-atenção utilizada nas camadas estranhas e a atenção cruzada utilizada nas camadas pares. Com esta intercalação, a estrutura do descodificador corresponde ao codificador, pelo que também pode ser inicializada da mesma forma a partir de TULRv3.

O DeltaLM é incrementado pela poderosa aprendizagem multitarefa do ZCode: Aprendizagem multi-tarefa para Tradução Multilingue por Máquina Neural. Os nossos modelos mostram que combinar a aprendizagem multi-tarefa e multilingue pode melhorar significativamente a formação para modelos linguísticos pré-formados em larga escala. Este paradigma de aprendizagem multilingue multitarefa está a alavancar o viés indutivo e a regularização de várias tarefas e línguas em simultâneo para melhor desempenho em várias tarefas a jusante. Estamos a utilizar a tarefa de tradução, a tarefa de denoising auto codificador e a tarefa de corrupção de tradução span, como se mostra na figura abaixo.

Ganhar a pista de tradução massivamente multilingue

Para construir o nosso sistema vencedor de tradução multilingue em massa (Sistemas de tradução automática multilingue da Microsoft para a Tarefa Partilhada WMT21), começámos com zCode-DeltaLM, e acrescentámos alguns truques.

Aplicamos a aprendizagem progressiva, primeiro treinando um modelo com 24 camadas codificadoras e 12 camadas descodificadoras, depois continuamos o treino com 12 camadas codificadoras adicionadas, resultando num codificador profundo de 36 camadas. Para cobrir todos os pares de línguas, geramos dados dual-pseudo-paralelos em que ambos os lados dos dados paralelos são sintéticos, traduzidos pelo modelo a partir do inglês. Aplicamos também uma retrotradução iterativa para gerar dados sintéticos. Aplicamos a aprendizagem curricular, começando com a totalidade dos dados de formação ruidosos, reduzindo-a depois a um subconjunto limpo. Reavaliamos o objectivo da tradução para favorecer os dados paralelos em relação aos dados de retrotradução e os dados de dupla pseudo-pseudo-paralela. Aplicamos amostras de temperatura para equilibrar os pares de línguas. Para cada par de línguas, escolhemos, com base no conjunto de dev, se preferimos a tradução directa ou a tradução pivot através do inglês.

Juntando tudo isto, sabíamos que tínhamos um incrível sistema massivamente multilingue, mas os resultados oficiais no conjunto de testes cegos excederam as nossas expectativas. Conseguimos 2,5 a 9 BLEU à frente do concorrente seguinte, e 10 a 21 pontos BLEU à frente do modelo de base M2M-175. No teste de desenvolvimento comparámos com o modelo maior M2M-615, que também vencemos por 10 a 18 pontos.

Para além da tradução: Geração Universal de Línguas

Enquanto estamos entusiasmados com a grande vitória no WMT 2021, o que é ainda mais emocionante é que, ao contrário dos outros concorrentes, o nosso modelo ZCode-DeltaLM não é apenas um modelo de tradução, mas sim um modelo geral de linguagem codificador-decodificador pré-treinado, utilizável para todo o tipo de tarefas de geração para além da tradução. Isto permite realmente que os nossos modelos desempenhem bastante bem várias tarefas de geração de linguagem natural multilingue.

Chegámos a uma nova SOTA em muitas tarefas da geração popular Benchmark GEMincluindo Wikilingua (resumo), simplificação de texto (WikiAuto), e estrutura-para-texto (WebNLG). O modelo DeltaLM-ZCode tem um desempenho amplamente superior a modelos muito maiores, como o mT5 XL (3.7B), que também é treinado em dados muito maiores. Isto demonstrou a eficiência e versatilidade dos modelos, levando a um forte desempenho em muitas tarefas.

Figura 2. Desempenho (pontuações RL) do ZCode-DeltaLM nas tarefas de sumarização e simplificação de texto no benchmark GEM

Olhar em Frente

A tradução automática multilingue chegou a um ponto em que funciona muito bem, excedendo os sistemas bilingues, tanto em línguas de poucos como de muitos recursos. Os modelos Mixture of Experts (MoE) demonstraram ser muito bons para aumentar a escala de tais modelos, tal como foi demonstrado no GShard. Exploramos como escalar eficientemente tais modelos com a Mixture of Experts: Formação MoE Escalável e Eficiente para Modelos Multilingues Multitarefa. Os modelos MoE com dados multilingues massivos e formação multitarefa não supervisionada apresentam uma oportunidade sem precedentes para que tais modelos forneçam sistemas verdadeiramente universais que possam permitir à equipa do Microsoft Translator eliminar barreiras linguísticas em todo o mundo, bem como apoiar uma variedade de tarefas de geração de linguagem natural.

Agradecimentos

Gostaríamos de reconhecer e agradecer a Francisco Guzman e à sua equipa que recolheu o conjunto de testes FLORES em massa multilingue e organizou esta pista WMT com uma avaliação em tão grande escala.