Gå til hovedindholdet
Oversætter
Denne side er automatisk oversat af Microsoft Translator maskinoversættelsestjeneste. Lær mere

Microsoft Translator blog

Flersproget oversættelse i stor skala: 10000 sprogpar og derover

Microsoft er på jagt efter AI i stor skala med høje ambitioner om at muliggøre den næste generation af AI-oplevelser. Microsoft-oversætteren ZCode team arbejder sammen med Microsoft Project Turing og Microsoft Research Asia for at fremme sprog- og flersproget support i centrum for dette initiativ. Vi fortsætter med at skubbe grænser med flersprogede modeller til at understøtte forskellige sprogscenarier på tværs af Microsoft. Sidste sommer annoncerede vi vores store Flersproget blanding af ekspert model med DeepSpeed der kan udkonkurrere individuelle tosprogede modeller i stor skala. For nylig, den nyeste Turing universelle sprog repræsentation model (T-ULRv5), er en Microsoft-skabt model igen den nyeste teknologi og øverst på Google XTREME offentlige rangliste på det tidspunkt. For nylig annoncerede Microsoft den største Megatron-Turing NLG 530B parametre model.

Den årlige konference om maskinoversættelse (alias WMT 2021) sluttede i sidste uge i smukke Punta Cana, Den Dominikanske Republik. WMT samler forskere fra hele maskinoversættelsesområdet, både industrien og den akademiske verden, for at deltage i en række fælles opgaver, der hver især definerer et benchmark inden for et vigtigt område inden for maskinoversættelse for at skubbe feltet ind i nye grænser.

Microsoft Translator ZCode-teamet, der arbejder sammen med Turing-teamet og Microsoft Research Asia, konkurrerede i sporet "Large-scale Multilingual Translation", som bestod af en komplet opgave med at oversætte mellem alle 10.000 retninger på tværs af 101 sprog og to små opgaver: Et fokuserede på 5 central- og sydeuropæiske sprog og et på 5 sydøstasiatiske sprog. Microsoft ZCode-DeltaLM-modellen vandt alle tre opgaver med enorme marginer, herunder en utrolig 10 + point gevinst over M2M100-modellen i den store opgave evalueret på en massiv 10.000 sprogpar. (Resultaterne af den delte wmt 2021-opgave om flersproget maskinoversættelse i stor skala, Wenzek et al., WMT 2021).

Figur 1: Officielle resultater (BLEU-resultater) om den fulde opgave og den lille opgave1 på den delte opgave med flersproget oversættelse i stor skala 2021

ZCode-DeltaLM-tilgangen

I dette blogindlæg, lad os tage et kig under kølerhjelmen på den vindende Microsoft ZCode-DeltaLM model. Vores udgangspunkt var DeltaLM (DeltaLM: Encoder-Dekoder Pre-uddannelse til sproggenerering og oversættelse ved at forøge præuddannede flersprogede kodere), den seneste i den stadig mere kraftfulde serie af massivt flersprogede foruddannede sprogmodeller fra Microsoft.


DeltaLM er en koder-dekoder model, men i stedet for uddannelse fra bunden, er det initialiseret fra en tidligere pretrained state-of-the-art encoder-only model, specifikt (TULRv3). Mens initialisering af koderen er ligetil, er dekoderen mindre, da den tilføjer krydsopmærksomhed til koderens selvopmærksomhed. DeltaLM løser dette problem med en ny interleaved arkitektur, hvor selvopmærksomhed og cross-opmærksomhed veksler mellem lag, med den selvopmærksomhed, der anvendes i de ulige lag og krydsopmærksomhed, der anvendes i de lige lag. Med denne interleaving matcher dekoderstrukturen koderen, og derfor kan den også initialiseres på samme måde fra TULRv3.

DeltaLM forstærkes af ZCode kraftfuld multitaskelæring: Læring med flere opgaver til flersproget neural maskinoversættelse. Vores modeller viser, at kombinationen af flertask og flersproget læring kan forbedre uddannelsen til foruddannede sprogmodeller i stor skala. Et sådant flersproget læringsparadigme i flere byer udnytter den induktive bias og legalisering fra flere opgaver og sprog samtidigt for at klare sig bedre på forskellige downstream-opgaver. Vi bruger oversættelse opgave, denoising auto encoder opgave og oversættelse span korruption opgave som vist i figuren nedenfor.

At vinde det massivt flersprogede oversættelsesspor

For at opbygge vores vindende massivt flersprogede oversættelsessystem (Delte flersprogede maskinoversættelsessystemer fra Microsoft til wmt21-delt opgave), vi startede med zCode-DeltaLM, og tilføjede et par tricks.

Vi anvender progressiv læring, træner først en model med 24 koderlag og 12 dekoderlag og fortsætter derefter træningen med 12 tilføjede koderlag, hvilket resulterer i en dyb 36-lags koder. For at dække alle sprogpar genererer vi dual-pseudo-parallel data, hvor begge sider af de parallelle data er syntetiske, oversat af modellen fra engelsk. Vi anvender også iterativ back-oversættelse til at generere syntetiske data. Vi anvender læseplanslæring, startende med hele støjende træningsdata og reducerer dem derefter til en ren delmængde. Vi re-vægt oversættelsen mål at favorisere parallelle data over back-oversættelse og dual-pseudo-parallel data. Vi anvender temperaturprøvetagning for at balancere på tværs af sprogpar. For hvert sprogpar vælger vi, baseret på udviklingssættet, om vi foretrækker direkte oversættelse eller pivotoversættelse via engelsk.

Ved at sætte det hele sammen vidste vi, at vi havde et fantastisk massivt flersproget system, men de officielle resultater på blindtestsættet oversteg vores forventninger. Vi scorede 2,5 til 9 BLEU foran den næste konkurrent, og 10 til 21 BLEU point foran baseline M2M-175 model. På dev test vi sammenlignet med de større M2M-615 model, som vi også slog med 10 til 18 point.

Ud over oversættelse: Universal Language Generation

Mens vi er begejstrede for den store gevinst på WMT 2021, hvad der er endnu mere spændende er, at i modsætning til de andre konkurrenter, vores ZCode-DeltaLM model er ikke bare en oversættelse model, men snarere en generel forbehandlet koder-dekoder sprogmodel, anvendelige til alle former for generation opgaver ud over oversættelse. Dette gør det virkelig muligt for vores modeller at klare sig ganske godt på forskellige flersprogede sproggenereringsopgaver.

Vi nåede en ny SOTA i mange populære generationsopgaver fra GEM Benchmark, herunder Wikilingua (opsummering), tekstforenkling (WikiAuto) og struktur-til-tekst (WebNLG). DeltaLM-ZCode-modellen klarer sig bredt udkonkurrerer meget større modeller som mT5 XL (3.7B), som også er uddannet på meget større data. Dette viste effektiviteten og alsidigheden af modellerne, der fører til stærk ydeevne på tværs af mange opgaver.

Figur 2. Ydeevne (RL-score) af ZCode-DeltaLM på opsummerings- og tekstforenklingsopgaverne i GEM-benchmarket

Ser fremad

Flersproget maskinoversættelse har nået et punkt, hvor det fungerer meget godt, overstiger tosprogede systemer, på både lav og høj ressource sprog. Blanding af eksperter (MoE) modeller har vist sig at være en meget god pasform til at skalere op sådanne modeller, som det er blevet vist i GShard. Vi undersøger, hvordan man effektivt skalerer sådanne modeller med blanding af eksperter: Skalerbar og effektiv MoE-træning til flersprogede flersprogede modeller i flere år. MoE-modeller med massive flersprogede data og uovervåget multitasktræning giver en usikker mulighed for, at sådanne modeller kan levere virkelig universelle systemer, der yderligere kan gøre det muligt for Microsoft Translator-teamet at fjerne sprogbarrierer over hele verden samt understøtte en række naturlige sproggenereringsopgaver.

Anerkendelser

Vi vil gerne anerkende og takke Francisco Guzman & hans team, der indsamlede det massivt flersprogede FLORES-testsæt og organiserede dette WMT-spor med så storstilet evaluering.