Višejezični prijevod na skali: 10000 jezičnih parova i više
Microsoft je u potrazi za AI na skali s velikom ambicijom da omogući sljedeću generaciju AI iskustava. Microsoft Translator ZCode tim radi zajedno sa Microsoft Project Turing i Microsoft Research Asia da unaprede jezičku i višejezičnu podršku u srži ove inicijative. Nastavljamo da pomeramo granice sa višejezičnim modelima kako bismo podržali različite jezičke scenarije širom Microsofta. Prošlog ljeta najavili smo naš veliki obim Višejezična mješavina stručnjaka model sa DeepSpeed koji mogu nadmašiti pojedinačne dvojezične modele velikih razmjera. Nedavno je najnoviji Turingov model predstavljanja univerzalnog jezika (T-ULRv5), model koji je kreirao Microsoft ponovo je najmoderniji i na vrhu Google-a XTREME javna rang lista u to vrijeme. Nedavno je Microsoft najavio najveću Megatron-Turing NLG 530B model parametara.
Godišnja konferencija o mašinskom prevođenju (aka WMT 2021) završena je prošle nedelje u prelepoj Punta Kani, Dominikanska Republika. WMT okuplja istraživače iz čitave oblasti mašinskog prevođenja, kako industrije tako i akademske zajednice, kako bi učestvovali u nizu zajedničkih zadataka, od kojih svaki definiše merilo u važnoj oblasti mašinskog prevođenja kako bi se polje pomerilo na nove granice.
Tim Microsoft Translator ZCode, koji je radio zajedno sa Turing timom i Microsoft Research Asia, takmičio se u stazi „Velikojezično prevođenje velikih razmera“, koja se sastojala od punog zadatka prevođenja između svih 10.000 pravaca na 101 jezik i dva mala zadatka: jedan fokusiran na 5 srednjoevropskih i južnoevropskih jezika i jedan na 5 jezika jugoistočne Azije. Microsoft ZCode-DeltaLM model osvojio je sva tri zadatka s velikom razlikom, uključujući nevjerovatnu dobit od 10+ poena u odnosu na model M2M100 u velikom zadatku procijenjenom na masivnih 10.000 jezičkih parova. (Nalazi zajedničkog zadatka WMT 2021 o masovnom višejezičnom mašinskom prevođenju, Wenzek et al, WMT 2021).
Slika 1: Zvanični rezultati (BLEU rezultati) na punom zadatku i malom zadatku1 na zajedničkom zadatku WMT 2021 velikog obima višejezičnog prevođenja
ZCode-DeltaLM pristup
U ovom postu na blogu, pogledajmo ispod haube pobjednički Microsoft ZCode-DeltaLM model. Naša polazna tačka je bio DeltaLM (DeltaLM: Predtrening kodera-dekodera za generiranje jezika i prevođenje povećanjem unaprijed obučenih višejezičnih kodera), najnoviji u sve snažnijoj seriji masovno višejezičnih unaprijed obučenih jezičkih modela iz Microsofta.
DeltaLM je model koder-dekoder, ali umjesto obuke od nule, on je inicijaliziran iz prethodno obučenog najmodernijeg modela samo kodera, konkretno (TULRv3). Dok je inicijalizacija enkodera jednostavna, dekoder je manje, jer dodaje unakrsnu pažnju samopažnji enkodera. DeltaLM rešava ovaj problem sa novom interleaved arhitekturom, gde se samopažnja i unakrsna pažnja smenjuju između slojeva, pri čemu se samopažnja koristi u neparnim slojevima i unakrsno pažnja koja se koristi u parnim slojevima. Sa ovim preplitanjem, struktura dekodera odgovara koderu, tako da se može inicijalizirati na isti način iz TULRv3.
DeltaLM je proširen ZCode moćnim učenjem više zadataka: Učenje sa više zadataka za višejezično neuronsko mašinsko prevođenje. Naši modeli pokazuju da kombinovanje učenja sa više zadataka i višejezičnog učenja može značajno poboljšati obuku za velike prethodno obučene jezičke modele. Takva paradigma višejezičnog učenja sa više zadataka koristi induktivnu pristrasnost i regularizaciju iz nekoliko zadataka i jezika istovremeno kako bi se bolje izvela niz zadataka. Koristimo zadatak prevođenja, zadatak automatskog enkodera za uklanjanje šuma i zadatak oštećenja raspona prijevoda kao što je prikazano na donjoj slici.
Pobjeda u velikom broju višejezičnih prijevoda
Da izgradimo naš pobjednički, masovno višejezični sistem prevođenja (Višejezični sistemi mašinskog prevođenja iz Microsofta za zajednički zadatak WMT21), počeli smo sa zCode-DeltaLM i dodali nekoliko trikova.
Primjenjujemo progresivno učenje, prvo treniramo model sa 24 sloja kodera i 12 slojeva dekodera, a zatim nastavljamo obuku sa 12 dodatih slojeva kodera, što rezultira enkoderom od 36 dubokih slojeva. Da bismo pokrili sve jezičke parove, generišemo dual-pseudo-paralelne podatke gde su obe strane paralelnih podataka sintetičke, prevedene modelom sa engleskog. Također primjenjujemo iterativno povratno prevođenje za generiranje sintetičkih podataka. Primjenjujemo učenje po nastavnom planu i programu, počevši od cjelokupnih podataka o bučnoj obuci, a zatim ih reduciramo na čist podskup. Mi ponovo težimo cilju prevođenja kako bismo dali prednost paralelnim podacima u odnosu na povratno prevođenje i dual-pseudo-paralelne podatke. Primjenjujemo temperaturno uzorkovanje za ravnotežu između jezičnih parova. Za svaki jezički par biramo, na osnovu dev skupa, da li ćemo preferirati direktni prijevod ili okretni prijevod na engleski.
Stavljajući sve zajedno, znali smo da imamo neverovatan masovno višejezični sistem, ali zvanični rezultati na setu testova na slepu nadmašili su naša očekivanja. Osvojili smo 2,5 do 9 BLEU bodova ispred sljedećeg konkurenta i 10 do 21 BLEU poen ispred osnovnog modela M2M-175. Na dev testu smo uporedili sa većim modelom M2M-615, koji smo takođe pobedili za 10 do 18 poena.
Beyond Translation: Generacija univerzalnog jezika
Iako smo uzbuđeni zbog velike pobjede na WMT 2021, ono što je još uzbudljivije je to što za razliku od ostalih konkurenata, naš ZCode-DeltaLM model nije samo model prijevoda, već prije opći unaprijed obučeni jezički model koder-dekoder, upotrebljiv za sve vrste generacijskih zadataka izvan prevođenja. Ovo zaista omogućava našim modelima da rade prilično dobro na različitim zadacima generiranja višejezičnog prirodnog jezika.
Došli smo do nove SOTA-e u mnogim popularnim generacijskim zadacima od GEM Benchmark, uključujući Wikilingua (sažimanje), pojednostavljenje teksta (WikiAuto) i struktura u tekst (WebNLG). DeltaLM-ZCode model uvelike nadmašuje mnogo veće modele kao što je mT5 XL (3.7B) koji je takođe obučen na mnogo većim podacima. Ovo je pokazalo efikasnost i svestranost modela što je dovelo do jakih performansi u mnogim zadacima.
Slika 2. Performanse (RL rezultati) ZCode-DeltaLM na zadacima sažimanja i pojednostavljenja teksta u GEM benchmark-u
Looking Ahead
Višejezično mašinsko prevođenje je dostiglo tačku u kojoj radi veoma dobro, prevazilazeći dvojezične sisteme, i na jezicima sa malim i visokim resursima. Mixture of Experts (MoE) modeli su se pokazali kao vrlo dobri za povećanje veličine takvih modela kao što je prikazano u GShard-u. Istražujemo kako efikasno skalirati takve modele uz Mixture of Experts: Skalabilna i efikasna obuka za MOE za višejezične modele sa više zadataka. MOE modeli sa ogromnim višejezičnim podacima i obukom za više zadataka bez nadzora predstavljaju neviđenu priliku za takve modele da obezbede zaista univerzalne sisteme koji mogu dodatno omogućiti timu Microsoft Translator da eliminiše jezičke barijere širom sveta, kao i da podrži niz zadataka generisanja prirodnog jezika.
Priznanja
Željeli bismo odati priznanje i zahvaliti Franciscu Guzmanu i njegovom timu koji su prikupili masovno višejezični FLORES test set i organizirali ovu WMT stazu sa tako velikom evaluacijom.