Daugiakalbis vertimas skalėje: 10000 kalbų porų ir daugiau
"Microsoft" ieško DI skalėje su dideliais užmojais sudaryti sąlygas naujos kartos DI patirčiai. "Microsoft" vertėjas ZCode komanda dirba kartu su "Microsoft Project Turing" ir "Microsoft Research Asia", kad šios iniciatyvos pagrindas būtų kalbos ir daugiakalbis palaikymas. Mes ir toliau stumiame sienas daugiakalbiais modeliais, kad palaikytume įvairius kalbų scenarijus visoje "Microsoft". Praėjusią vasarą paskelbėme apie didelį mastą Daugiakalbis ekspertų mišinys modelis su DeepSpeed gali pralenkti atskirus didelio masto dvikalbius modelius. Neseniai naujausias Turing universalus kalbos atstovavimo modelis (T-ULRv5), "Microsoft" sukurtas modelis vėl yra moderniausias ir "Google" viršuje XTREME viešoji lyderių lenta tuo metu. Visai neseniai "Microsoft" paskelbė apie didžiausią Megatron-Turing NLG 530B parametrų modelį.
Metinė mašininio vertimo konferencija (dar žinoma kaip WMT 2021) praėjusią savaitę baigėsi gražioje Punta Kanoje, Dominikos Respublikoje. WMT suburia mokslininkus iš visos mašininio vertimo srities, tiek pramonės, tiek akademinės bendruomenės, dalyvauti bendrų užduočių serijoje, kurių kiekviena apibrėžia lyginamąjį standartą svarbioje mašininio vertimo srityje, kad stumtų lauką į naujas sienas.
"Microsoft Translator ZCode" komanda, bendradarbiaudama su "Turing" komanda ir "Microsoft Research Asia", varžėsi "Didelio masto daugiakalbio vertimo" trasoje, kurią sudarė visa užduotis versti tarp visų 10 000 krypčių 101 kalba ir dvi mažos užduotys: viena skirta 5 Vidurio ir Pietų Europos kalboms, o viena - 5 Pietryčių Azijos kalboms. "Microsoft ZCode-DeltaLM" modelis laimėjo visas tris užduotis didžiulėmis maržomis, įskaitant neįtikėtiną 10 + taškų prieaugį per M2M100 modelį didelėje užduotyje, įvertintoje didžiulėmis 10 000 kalbų poromis. (WMT 2021 m. bendros užduoties dėl didelio masto daugiakalbio mašininio vertimo išvados, Wenzek et al, WMT 2021).
1 paveikslėlis: Oficialūs rezultatai (BLEU balai) dėl visos užduoties ir mažos užduoties1 WMT 2021 m. didelio masto daugiakalbio vertimo bendroje užduotyje
ZCode-DeltaLM metodas
Šiame tinklaraščio įraše pažvelkime po gaubtu į laimėjusį "Microsoft ZCode-DeltaLM" modelį. Mūsų atspirties taškas buvo DeltaLM (DeltaLM: Encoder-Decoder Išankstinis kalbų generavimo ir vertimo mokymas papildant iš anksto apmokytus daugiakalbius koduotuvus), naujausias iš vis galingesnių masiškai daugiakalbių "Microsoft" kalbos modelių.
DeltaLM yra kodavimo ir dekoderio modelis, tačiau vietoj mokymo nuo nulio jis inicijuojamas iš anksčiau iš anksto apmokyto modernaus tik kodavimo modelio, konkrečiai (TULRv3). Nors encoder inicijavimas yra paprastas, dekoderis yra mažesnis, nes jis prideda kryžminį dėmesį į kodavimo dėmesį. DeltaLM išsprendžia šią problemą su nauja interleaved architektūra, kur savęs dėmesys ir kryžminis dėmesys pakaitomis tarp sluoksnių, su savęs dėmesį, naudojamą nelyginis sluoksnių ir kryžminio dėmesio naudojamas tolygūs sluoksniai. Su šiuo susipynimu dekoderio struktūra atitinka kodavimą, todėl jis taip pat gali būti inicijuotas taip pat iš TULRv3.
DeltaLM papildo ZCode galingas kelių užduočių mokymasis: Daugiafunkcinis mokymasis daugiakalbiam neuroniniam mašininiam vertimui. Mūsų modeliai rodo, kad kelių užduočių ir daugiakalbio mokymosi derinimas gali žymiai pagerinti mokymą didelio masto iš anksto apmokytiems kalbų modeliams. Tokia daugiafunkcinė daugiakalbė mokymosi paradigma pritraukia indukcinį šališkumą ir sureguliavimą iš kelių užduočių ir kalbų vienu metu, kad geriau atliktų įvairias tolesnės grandies užduotis. Mes naudojame vertimo užduotį, nurodančią automatinio kodavimo užduotį ir vertimo span korupcijos užduotį, kaip parodyta toliau pateiktame paveikslėlyje.
Masiškai daugiakalbio vertimo takelio laimėjimas
Sukurti mūsų laimėjusią masiškai daugiakalbę vertimo sistemą (Daugiakalbės mašininio vertimo sistemos iš "Microsoft", skirtos WMT21 bendrai naudojamai užduočiai), pradėjome nuo zCode-DeltaLM ir pridėjome keletą gudrybių.
Mes taikome progresyvų mokymąsi, pirmiausia mokome modelį su 24 kodavimo sluoksniais ir 12 dekoderio sluoksnių, tada tęsiame mokymą su 12 pridėtų kodavimo sluoksnių, todėl atsiranda gilus 36 sluoksnių kodavimas. Norėdami apimti visas kalbų poras, generuojame dvejopus pseudo lygiagrečius duomenis, kuriuose abi lygiagrečių duomenų pusės yra sintetinės, modelio išverstos iš anglų kalbos. Mes taip pat taikome iteracinį grįžtamąjį vertimą sintetiniams duomenims generuoti. Mes taikome mokymo programą, pradedant nuo visų triukšmingų mokymo duomenų, tada sumažinant jį iki švaraus pogrupio. Mes iš naujo pasverti vertimo tikslas naudai lygiagrečiai duomenis per atgalinio vertimo ir dviejų pseudo-lygiagrečiai duomenis. Mes taikome temperatūros mėginių ėmimą, kad subalansuotume kalbų poras. Kiekvienai kalbų porai, remdamiesi dev rinkiniu, pasirenkame, ar teikti pirmenybę tiesioginiam vertimui, ar tiesioginiam vertimui per anglų kalbą.
Viską sudėję žinojome, kad turime nuostabią masiškai daugiakalbę sistemą, tačiau oficialūs aklųjų testų rinkinio rezultatai viršijo mūsų lūkesčius. Mes surinkome 2,5–9 BLEU prieš kitą konkurentą ir 10–21 BLEU taškus lenkėme bazinį M2M-175 modelį. Dev teste palyginome su didesniu M2M-615 modeliu, kurį taip pat įveikėme nuo 10 iki 18 taškų.
Be vertimo: Universalios kalbos generavimas
Nors mes džiaugiamės dideliu laimėjimu WMT 2021, dar įdomiau yra tai, kad skirtingai nuo kitų konkurentų, mūsų ZCode-DeltaLM modelis yra ne tik vertimo modelis, bet ir bendras iš anksto apmokytas kodavimo dekoderio kalbos modelis, kurį galima naudoti visų rūšių kartos užduotims, išskyrus vertimą. Tai tikrai leidžia mūsų modeliams gana gerai atlikti įvairias daugiakalbes natūralios kalbos generavimo užduotis.
Mes pasiekėme naują SOTA daugelyje populiarių kartos užduočių iš GEM etalonas, įskaitant Wikilingua (apibendrinimas), teksto supaprastinimą (WikiAuto) ir struktūrą su tekstu (WebNLG). DeltaLM-ZCode modelis plačiai lenkia daug didesnius modelius, tokius kaip mT5 XL (3.7B), kuris taip pat yra apmokytas daug didesnių duomenų. Tai parodė modelių efektyvumą ir universalumą, dėl kurių daugelyje užduočių buvo labai daug rezultatų.
2 paveikslas. ZCode-DeltaLM našumas (LR balai) gem etalono apibendrinimo ir teksto supaprastinimo užduotyse
Žvilgsnis į ateitį
Daugiakalbis mašininis vertimas pasiekė tašką, kai jis veikia labai gerai, viršija dvikalbes sistemas tiek mažais, tiek aukštais ištekliais. Ekspertų mišinys (MoE) modeliai buvo įrodyta, kad labai gerai tinka plėsti tokius modelius, kaip buvo parodyta GShard. Mes tiriame, kaip efektyviai išplėsti tokius modelius su ekspertų mišiniu: Keičiamo mastelio ir efektyvus MoE mokymas daugiafunkciniams daugiakalbiams modeliams. MoE modeliai su didžiuliais daugiakalbiais duomenimis ir neprižiūrimais daugiafunkciniais mokymais suteikia nepretenzingą galimybę tokiems modeliams sukurti tikrai universalias sistemas, kurios gali dar labiau padėti "Microsoft Translator" komandai pašalinti kalbos barjerus visame pasaulyje, taip pat palaikyti įvairias natūralios kalbos kūrimo užduotis.
Padėkos
Norėtume pripažinti ir padėkoti Francisco Guzman - jo komandai, kuri surinko masiškai daugiakalbį FLORES testų rinkinį ir organizavo šį WMT takelį su tokiu dideliu įvertinimu.