Passa a contenuti principali
Translator
Questa pagina è stata tradotta automaticamente dal servizio di traduzione automatica di Microsoft Translator. Ulteriori informazioni

Blog di Microsoft Translator

Traduzione multilingue su larga scala: 10000 combinazioni linguistiche e oltre

Microsoft è alla ricerca di AI su larga scala con l'ambizione di consentire la prossima generazione di esperienze di intelligenza artificiale. Il traduttore Microsoft ZCode il team collabora con Microsoft Project Turing e Microsoft Research Asia per promuovere il supporto linguistico e multilingue al centro di questa iniziativa. Continuiamo a spingere le frontiere con i modelli multilingue per supportare vari scenari linguistici in Microsoft. L'estate scorsa, abbiamo annunciato la nostra grande scala Miscela multilingue di Expert modello con DeepSpeed che possono superare i singoli modelli bilingue su larga scala. Recentemente, l'ultimo modello di rappresentazione linguistica universale di Turing (T-ULRv5), un modello creato da Microsoft è ancora una volta lo stato dell'arte e al vertice di Google Classifica pubblica XTREME in quel momento. Più recentemente, Microsoft ha annunciato il più grande Megatron-Turing NLG 530B modello di parametri.

La Conferenza annuale sulla traduzione automatica (aka WMT 2021) si è conclusa la scorsa settimana nella bellissima Punta Cana, nella Repubblica Dominicana. WMT riunisce ricercatori provenienti da tutto il campo della traduzione automatica, sia dell'industria che del mondo accademico, per partecipare a una serie di compiti condivisi, ognuno dei quali definisce un punto di riferimento in un'importante area della traduzione automatica per spingere il campo verso nuove frontiere.

Il team di Microsoft Translator ZCode, in collaborazione con il team di Turing e Microsoft Research Asia, ha gareggiato nella traccia "Traduzione multilingue su larga scala", che consisteva in un compito completo di tradurre tra tutte le 10.000 direzioni in 101 lingue e due piccole attività: una incentrata su 5 lingue dell'Europa centrale e meridionale e una su 5 lingue del sud-est asiatico. Il modello Microsoft ZCode-DeltaLM ha vinto tutte e tre le attività con enormi margini, tra cui un incredibile guadagno di oltre 10 punti rispetto al modello M2M100 nella grande attività valutata su un enorme 10.000 combinazioni linguistiche. (Risultati del wmt 2021 shared task sulla traduzione automatica multilingue su larga scala, Wenzek et al, WMT 2021).

Figura 1: Risultati ufficiali (punteggi BLEU) sull'attività completa e sull'attività ridotta1 all'attività condivisa wmT 2021 traduzione multilingue su larga scala

L'approccio ZCode-DeltaLM

In questo post del blog, diamo un'occhiata sotto il cofano al modello vincente Microsoft ZCode-DeltaLM. Il nostro punto di partenza è stato DeltaLM (DeltaLM: Pre-training encoder-decoder per la generazione e la traduzione linguistica aumentando i codificatori multilingue pre-addestrati), l'ultimo della serie sempre più potente di modelli linguistici pre-addestrati massicciamente multilingue di Microsoft.


DeltaLM è un modello di codificatore-decodificatore, ma invece di eseguire l'addestramento da zero, viene inizializzato da un modello di solo codificatore all'avanguardia precedentemente pre-addestrato, in particolare (TULRv3 ·). Mentre l'inizializzazione dell'encoder è semplice, il decodificatore lo è meno, poiché aggiunge attenzione incrociata all'auto-attenzione dell'encoder. DeltaLM risolve questo problema con una nuova architettura interlacciata, in cui l'auto-attenzione e l'attenzione incrociata si alternano tra gli strati, con l'auto-attenzione utilizzata negli strati dispari e l'attenzione incrociata utilizzata negli strati pari. Con questo interleaving, la struttura del decodificatore corrisponde all'encoder e quindi può anche essere inizializzata allo stesso modo da TULRv3.

DeltaLM è potenziato dal potente apprendimento multitasking ZCode: Apprendimento multi-task per la traduzione automatica neurale multilingue. I nostri modelli mostrano che la combinazione di multitasking e apprendimento multilingue può migliorare significativamente la formazione per modelli linguistici pre-addestrati su larga scala. Tale paradigma di apprendimento multilingue multitasking sta sfruttando il pregiudizio induttivo e la regolarizzazione da più attività e lingue contemporaneamente per eseguire meglio su varie attività a valle. Stiamo utilizzando l'attività di traduzione, denoising dell'attività di codifica automatica e l'attività di corruzione dello span di traduzione, come mostrato nella figura seguente.

Vincere la traccia di traduzione multilingue di massa

Costruire il nostro sistema di traduzione multilingue vincente (Sistemi di traduzione automatica multilingue di Microsoft per wmT21 shared task), abbiamo iniziato con zCode-DeltaLM e abbiamo aggiunto alcuni trucchi.

Applichiamo l'apprendimento progressivo, prima addestrando un modello con 24 livelli encoder e 12 livelli decoder, quindi continuiamo l'addestramento con 12 livelli encoder aggiunti, ottenendo un encoder profondo a 36 strati. Per coprire tutte le combinazioni linguistiche, generiamo dati dual-pseudo-paralleli in cui entrambi i lati dei dati paralleli sono sintetici, tradotti dal modello dall'inglese. Applichiamo anche la back-translation iterativa per generare dati sintetici. Applichiamo l'apprendimento del curriculum, iniziando con tutti i dati di allenamento rumorosi, quindi riducendolo a un sottoinsieme pulito. Ripotiamo l'obiettivo di traduzione per favorire i dati paralleli rispetto ai dati di back-translation e dual-pseudo-parallel. Applichiamo il campionamento della temperatura per bilanciare le combinazioni linguistiche. Per ogni coppia di lingue, scegliamo, in base al set di sviluppo, se preferire la traduzione diretta o la traduzione pivot attraverso l'inglese.

Mettendo tutto insieme, sapevamo di avere un incredibile sistema multilingue di massa, ma i risultati ufficiali sul set di test ciechi hanno superato le nostre aspettative. Abbiamo ottenuto un punteggio da 2,5 a 9 BLEU in anticipo rispetto al concorrente successivo e da 10 a 21 punti BLEU in più rispetto al modello M2M-175 di base. Nel test di sviluppo abbiamo confrontato con il modello M2M-615 più grande, che abbiamo anche battuto da 10 a 18 punti.

Oltre la traduzione: Universal Language Generation

Mentre siamo entusiasti della grande vittoria al WMT 2021, ciò che è ancora più eccitante è che, a differenza degli altri concorrenti, il nostro modello ZCode-DeltaLM non è solo un modello di traduzione, ma piuttosto un modello linguistico encoder-decoder pre-addestrato, utilizzabile per tutti i tipi di attività di generazione oltre la traduzione. Ciò consente davvero ai nostri modelli di funzionare abbastanza bene su varie attività di generazione multilingue in linguaggio naturale.

Abbiamo raggiunto un nuovo SOTA in molte attività di generazione popolare da GEM Benchmark, tra cui Wikilingua (riassunto), Semplificazione del testo (WikiAuto) e Structure-to-Text (WebNLG). Il modello DeltaLM-ZCode supera ampiamente i modelli molto più grandi come mT5 XL (3,7 B), che viene anche addestrato su dati molto più grandi. Ciò ha dimostrato l'efficienza e la versatilità dei modelli che portano a prestazioni elevate in molte attività.

Figura 2. Prestazioni (punteggi RL) di ZCode-DeltaLM sulle attività di riepilogo e semplificazione del testo nel benchmark GEM

Guardando avanti

La traduzione automatica multilingue ha raggiunto un punto in cui funziona molto bene, superando i sistemi bilingui, sia nelle lingue a bassa che in quella ad alta risorsa. I modelli Di Mixture of Experts (MoE) hanno dimostrato di essere molto adatti per scalare tali modelli come è stato dimostrato in GShard. Esploriamo come scalare in modo efficiente tali modelli con Mixture of Experts: Formazione MoE scalabile ed efficiente per modelli multilingue multitasking. I modelli MoE con enormi dati multilingue e formazione multitasking non supervisionata presentano un'opportunità senza precedenti per tali modelli di fornire sistemi veramente universali che possono ulteriormente consentire al team di Microsoft Translator di eliminare le barriere linguistiche in tutto il mondo, oltre a supportare una varietà di attività di generazione del linguaggio naturale.

Riconoscimenti

Vorremmo riconoscere e ringraziare Francisco Guzman e il suo team che hanno raccolto il set di test FLORES massicciamente multilingue e organizzato questa traccia WMT con una valutazione su larga scala.