Višejezični prijevod u mjerilu: 10000 jezičnih parova i više njih
Microsoft je u potrazi za AI na vagi s visokom ambicijom da se omogući sljedeća generacija iskustava s AI-jem. Microsoftov prevoditelj ZCode tim surađuje s Microsoft Project Turing i Microsoft Research Asia za unapređenje jezika i višejezične podrške u središtu ove inicijative. Nastavljamo gurati granice s višejezičnim modelima kako bismo podržali različite jezične scenarije diljem Microsofta. Prošlog ljeta najavili smo naše velike razmjere Višejezična mješavina stručnjaka model s DeepSpeed koji mogu nadmašiti pojedinačne dvojezične modele velikih razmjera. Nedavno je najnoviji Turingov univerzalni model jezične reprezentacije (T-ULRv5), model koji je izradio Microsoft ponovno je najsuvremeniji i na vrhu Googlea XTREME javna ljestvica poretka u to vrijeme. U novije vrijeme Microsoft je najavio najveću Megatron-Turing NLG 530B parametara.
Godišnja Konferencija o strojnom prevođenju (poznata i kao WMT 2021) završena je prošlog tjedna u prekrasnoj Punta Cani, Dominikanska Republika. WMT okuplja istraživače iz cijelog područja strojnog prevođenja, kako industrije tako i akademske zajednice, kako bi sudjelovali u nizu zajedničkih zadataka, od kojih svaki definira mjerilo u važnom području strojnog prevođenja kako bi se polje gurnulo u nove granice.
Tim Microsoft Translator ZCode, u suradnji s Turingovim timom i Microsoft Research Asia, natjecao se u pjesmi "Large-scale Multilingual Translation", koja se sastojala od punog zadatka prevođenja između svih 10.000 smjerova na 101 jeziku i dva mala zadatka: jedan usredotočen na 5 jezika srednje i južne Europe i jedan na 5 jugoistočnoazijskih jezika. Microsoft ZCode-DeltaLM model osvojio je sva tri zadatka s ogromnim maržama, uključujući nevjerojatan dobitak od 10+ bodova u odnosu na model M2M100 u velikom zadatku procijenjenom na masivnih 10.000 jezičnih parova. (Nalazi zajedničkog zadatka WMT 2021 o višejezičnom strojnom prevođenju velikih razmjera, Wenzek i sur., WMT 2021.).
Grafikon 1.: Službeni rezultati (rezultati BLEU-a) o zadatku punog zadatka i malom zadatku1 na zajedničkom zadatku višejezičnog prevođenja WMT 2021
ZCode-DeltaLM pristup
U ovom postu na blogu pogledajmo ispod haube pobjednički Microsoft ZCode-DeltaLM model. Naša polazna točka bila je DeltaLM (DeltaLM: Predobučavanje kodera i dekodera za generiranje i prevođenje jezika povećanjem pretkvalificiranih višejezičnih kodera), posljednji u sve snažnijoj seriji masovno višejezičnih pretkvalificiranih jezičnih modela tvrtke Microsoft.
DeltaLM je model kodera i dekodera, ali umjesto treninga od nule, inicijaliziran je iz prethodno prethodno obučenog najsuvremenijeg modela samo za kodere , posebno (TULRv3). Dok je inicijalizacija kodera jednostavna, dekoder je manje, jer dodaje unakrsnu pozornost samokontroli kodera. DeltaLM rješava ovaj problem novom isprepletenom arhitekturom, gdje se samokontrola i unakrsna pažnja izmjenjuju između slojeva, sa samo-pažnjom koja se koristi u čudnim slojevima i unakrsnom pažnjom koja se koristi u parnim slojevima. S ovim preplitanjem, struktura dekodera odgovara koderu, pa se također može inicijalizirati na isti način od TULRv3.
DeltaLM je proširen ZCode snažnim učenjem više zadataka odjednom: Učenje s više zadataka za višejezično neuronske strojno prevođenje. Naši modeli pokazuju da kombiniranje višezadaćnog i višejezičnog učenja može značajno poboljšati obuku za velike unaprijed obučene jezične modele. Takva višezadaćna višejezična paradigma učenja koristi induktivnu pristranost i regularizaciju iz nekoliko zadataka i jezika istovremeno kako bi bila bolja na različitim daljnjim zadacima. Koristimo zadatak prevođenja, označavamo zadatak automatskog kodiranja i zadatak oštećenja raspona prijevoda kao što je prikazano na slici ispod.
Osvajanje masovno višejezične pjesme prijevoda
Izgraditi naš pobjednički masovno višejezični sustav prevođenja (Višejezični sustavi strojnog prevođenja tvrtke Microsoft za zajednički zadatak WMT21), počeli smo sa zCode-DeltaLM-om i dodali nekoliko trikova.
Primjenjujemo progresivno učenje, prvo treniramo model s 24 sloja kodera i 12 slojeva dekodera, a zatim nastavljamo trenirati s 12 dodanih slojeva kodera, što rezultira dubokim koderom od 36 slojeva. Da bismo obuhvatili sve jezične parove, generiramo dvo-pseudo-paralelne podatke gdje su obje strane paralelnih podataka sintetičke, prevedene modelom s engleskog jezika. Također primjenjujemo iterativni pozadinski prijevod za generiranje sintetičkih podataka. Primjenjujemo učenje kurikuluma, počevši od cijelih bučnih podataka o vježbanju, a zatim ih svodimo na čisti podskup. Ponovno ponderijemo cilj prevođenja kako bismo pogodovali paralelnim podacima u odnosu na podatke koji se prevode i dva-pseudo-paralelna podatka. Primjenjujemo uzorkovanje temperature kako bismo uravnotežili sve jezične parove. Za svaki jezični par odabiremo, na temelju dev seta, hoćemo li preferirati izravni prijevod ili pivot prijevod na engleski jezik.
Stavljajući sve zajedno, znali smo da imamo nevjerojatan masivno višejezični sustav, ali službeni rezultati na skupu slijepih testova premašili su naša očekivanja. Postigli smo 2,5 do 9 BLEU ispred sljedećeg konkurenta i 10 do 21 BLEU bodova ispred osnovnog modela M2M-175. Na dev testu usporedili smo s većim modelom M2M-615, koji smo također pobijedili za 10 do 18 bodova.
Izvan prijevoda: Generacija univerzalnog jezika
Iako smo uzbuđeni zbog velike pobjede na WMT 2021, ono što je još uzbudljivije je da za razliku od ostalih konkurenata, naš model ZCode-DeltaLM nije samo model prevođenja, već i opći unaprijed obučeni model jezika kodiranja i dekodera, upotrebljiv za sve vrste zadataka generacije izvan prijevoda. To stvarno omogućuje našim modelima da vrlo dobro funkcioniraju na raznim višejezičnim zadacima generiranja prirodnog jezika.
Došli smo do novog SOTA-e u mnogim zadacima popularne generacije iz GEM referentna vrijednost, uključujući Wikilinguu (sažimanje), pojednostavljenje teksta (WikiAuto) i strukturu u tekst (WebNLG). DeltaLM-ZCode model uvelike nadmašuje mnogo veće modele kao što je mT5 XL (3,7B) koji je također obučen na mnogo većim podacima. To je pokazalo učinkovitost i svestranost modela što je dovelo do snažnih performansi u mnogim zadacima.
Slika 2. Performanse (RL rezultati) ZCode-DeltaLM-a na zadacima sažimanja i pojednostavljenja teksta u gem benchmarku
Gledajući unaprijed
Višejezično strojno prevođenje doseglo je točku u kojoj vrlo dobro funkcionira, nadmašujući dvojezične sustave, kako na jezicima niskih tako i na visokim resursima. Pokazalo se da se modeli Mješavine stručnjaka (MoE) vrlo dobro uklapaju u povećanje takvih modela kao što je prikazano u GShardu. Istražujemo kako učinkovito skalirati takve modele mješavinom stručnjaka: Skalabilni i učinkoviti moE trening za višezadaćne modele. MoE modeli s ogromnim višejezičnim podacima i nenadziranim višezadaćnim osposobljavanjem predstavljaju nepredvidivu priliku za takve modele da pruže istinski univerzalne sustave koji mogu dodatno omogućiti timu Microsoft Translatora da ukloni jezične barijere širom svijeta, kao i podržati razne zadatke generiranja prirodnog jezika.
Priznanja
Željeli bismo zahvaliti Franciscu Guzmanu i njegovom timu koji su prikupili masovno višejezični FLORES testni set i organizirali ovu WMT stazu s tako velikom procjenom.