Daudzvalodu tulkošana mērogā: 10000 valodu pāri un ne tikai
Microsoft meklē AI mērogā ar augstu mērķi nodrošināt nākamās paaudzes MI pieredzi. Microsoft tulkotājs ZCode komanda strādā kopā ar Microsoft Project Turing un Microsoft Research Asia, lai veicinātu valodu un daudzvalodu atbalstu šīs iniciatīvas pamatā. Mēs turpinām virzīt robežas ar daudzvalodu modeļiem, lai atbalstītu dažādus valodu scenārijus visā Microsoft. Pagājušajā vasarā mēs paziņojām par mūsu plaša mēroga Daudzvalodu ekspertu maisījums modelis ar DeepSpeed kas var pārspēt atsevišķus liela mēroga divvalodu modeļus. Nesen tika publicēts jaunākais Tjūringa universālais valodas reprezentācijas modelis (T-ULRv5), Microsoft radīts modelis atkal ir moderns un Google XTREME publiskā līderu skala tajā laikā. Pavisam nesen Microsoft paziņoja par lielāko Megatron-Turing NLG 530B parametru modeli.
Pagājušajā nedēļā skaistajā Puntakanā, Dominikānas Republikā, noslēdzās ikgadējā Mašīntulkošanas konference (arī WMT 2021). WMT apvieno pētniekus no visas mašīntulkošanas jomas , gan rūpniecības, gan akadēmisko aprindu, lai piedalītos vairākos kopīgos uzdevumos, katrs no tiem definē kritēriju svarīgā mašīntulkošanas jomā, lai virzītu šo jomu uz jaunām robežām.
Microsoft Translator ZCode komanda, sadarbojoties ar Turing komandu un Microsoft Research Asia, sacentās dziesmā "Liela mēroga daudzvalodu tulkošana", kas sastāvēja no pilna uzdevuma tulkot starp visiem 10 000 virzieniem 101 valodā un diviem maziem uzdevumiem: viens koncentrējās uz 5 Centrāleiropas un Dienvideiropas valodām un viens uz 5 Dienvidaustrumāzijas valodām. Microsoft ZCode-DeltaLM modelis uzvarēja visus trīs uzdevumus ar milzīgām rezervēm, ieskaitot neticamu 10 + punktu pieaugumu salīdzinājumā ar M2M100 modeli lielajā uzdevumā, kas novērtēts masveida 10 000 valodu pāros. (KONSTATĒJUMI, kas iegūti WMT 2021 kopīgā uzdevumā par liela mēroga daudzvalodu mašīntulkošanu, Wenzek et al, WMT 2021).
1. attēls: Oficiālie rezultāti (BLEU rezultāti) par pilna uzdevuma un mazā uzdevuma1 uzdevumu WMT 2021 liela mēroga daudzvalodu tulkošanas kopīgā uzdevumā
ZCode-DeltaLM pieeja
Šajā emuāra ierakstā aplūkosim zem pārsega uzvarētāju Microsoft ZCode-DeltaLM modeli. Mūsu sākumpunkts bija DeltaLM (DeltaLM: Kodētāja-dekodētāja priekšmācība valodu ģenerēšanai un tulkošanai, palielinot iepriekš apmācītus daudzvalodu kodētājus), jaunākais no microsoft masveidā daudzvalodu iepriekš apmācīto valodu modeļu sērijas.
DeltaLM ir kodētāja-dekodētāja modelis, bet tā vietā, lai mācītos no nulles, tas tiek inicializēts no iepriekš iepriekš apmācīta, tikai moderna kodētāja modeļa (TULRv3). Lai gan kodētāja inicializēšana ir vienkārša, dekodētājs ir mazāk, jo tas pievieno krustenisko uzmanību kodētāja pašpievērībai. DeltaLM atrisina šo problēmu ar jaunu savstarpēji saistītu arhitektūru, kur pašpievērība un krusteniskās uzmanības traucējumi mainās starp slāņiem, ar pašpievērsi, ko izmanto nepāra slāņos, un krustenisko uzmanību, ko izmanto pāra slāņos. Ar šo interleaving, dekodētāja struktūra atbilst kodētājs, un tāpēc to var arī inicializēt tādā pašā veidā no TULRv3.
DeltaLM papildina ZCode jaudīga vairākuzdevumu apguve: Daudzuzdevumu mācīšanās daudzvalodu neironu mašīntulkošanai. Mūsu modeļi liecina, ka daudzuzdevumu un daudzvalodu mācīšanās apvienojums var ievērojami uzlabot apmācību liela mēroga iepriekš apmācītiem valodu modeļiem. Šāda daudzuzdevumu daudzvalodu mācīšanās paradigma izmanto induktīvo neobjektivitāti un noregulēšanu no vairākiem uzdevumiem un valodām vienlaicīgi, lai labāk veiktu dažādus pakārtotus uzdevumus. Mēs izmantojam tulkošanas uzdevumu, denoizējot automātiskā kodētāja uzdevumu un tulkošanas procesa korupcijas uzdevumu, kā parādīts zemāk redzamajā attēlā.
Uzvara masveidā daudzvalodu tulkošanas trasē
Lai izveidotu mūsu uzvaru masveidā daudzvalodu tulkošanas sistēmu (Daudzvalodu mašīntulkošanas sistēmas no Microsoft WMT21 koplietojamam uzdevumam), mēs sākām ar zCode-DeltaLM un pievienojām dažus trikus.
Mēs pielietojam progresīvu mācīšanos, vispirms apmācām modeli ar 24 kodētāju slāņiem un 12 dekodētāja slāņiem, pēc tam turpinām apmācību ar 12 pievienotiem kodētāja slāņiem, kā rezultātā rodas dziļš 36 slāņu kodētājs. Lai aptvertu visus valodu pārus, mēs ģenerējam divu pseido-paralēlu datus, kuros abas paralēlo datu puses ir sintētiskas, ko modelis tulko no angļu valodas. Mēs arī piemērojam iteratīvu atpakaļtulkošanu, lai ģenerētu sintētiskos datus. Mēs piemērojam mācību programmu apguvi, sākot ar visiem trokšņainajiem apmācības datiem, pēc tam samazinot tos līdz tīrai apakšgrupai. Mēs pārsvēram tulkošanas mērķi, lai veicinātu paralēlus datus, nevis back-translation un dual-pseudo-parallel datus. Mēs piemērojam temperatūras paraugu ņemšanu, lai līdzsvarotu valodu pārus. Katram valodu pārim mēs izvēlamies, pamatojoties uz dev kopu, vai dot priekšroku tiešai tulkošanai vai rakurstulkošanai, izmantojot angļu valodu.
Saliekot to visu kopā, mēs zinājām, ka mums ir pārsteidzoša masveidā daudzvalodu sistēma, bet oficiālie rezultāti neredzīgo testu komplektā pārsniedza mūsu cerības. Mēs ieguvām 2,5 līdz 9 BLEU, apsteidzot nākamo konkurentu, un par 10 līdz 21 BLEU punktiem apsteidzot bāzes M2M-175 modeli. Dev testā mēs salīdzinājām ar lielāko M2M-615 modeli, kuru mēs arī pārspējam par 10 līdz 18 punktiem.
Ārpus tulkojuma: universālā valodas ģenerēšana
Lai gan mēs esam sajūsmā par lielo uzvaru WMT 2021, vēl aizraujošāk ir tas, ka atšķirībā no citiem konkurentiem mūsu ZCode-DeltaLM modelis nav tikai tulkošanas modelis, bet gan vispārējs iepriekš apmācīts kodētāja-dekodētāja valodas modelis, kas izmantojams visu veidu paaudzes uzdevumiem ārpus tulkojuma. Tas patiešām ļauj mūsu modeļiem diezgan labi veikt dažādus daudzvalodu dabiskās valodas ģenerēšanas uzdevumus.
Mēs sasniedzām jaunu SOTA daudzos populāros paaudzes uzdevumos no GEM etalons, ieskaitot Wikilingua (summēšana), teksta vienkāršošanu (WikiAuto) un struktūru-tekstu (WebNLG). DeltaLM-ZCode modelis plaši pārspēj daudz lielākus modeļus, piemēram, mT5 XL (3.7B), kas arī ir apmācīts daudz lielākiem datiem. Tas parādīja modeļu efektivitāti un daudzpusību, kas noveda pie spēcīgas veiktspējas daudzos uzdevumos.
2. attēls. ZCode-DeltaLM veiktspēja (RL rādītāji) GEM etalona summēšanas un teksta vienkāršošanas uzdevumos
Skatoties nākotnē
Daudzvalodu mašīntulkošana ir sasniegusi punktu, kurā tā darbojas ļoti labi, pārsniedzot divvalodu sistēmas gan zemu, gan augstu resursu valodās. Ekspertu (MOE) modeļu maisījums ir izrādījies ļoti piemērots, lai izvērstu šādus modeļus, kā parādīts GShard. Mēs pētām, kā efektīvi mērogot šādus modeļus ar ekspertu maisījumu: Mērogojama un efektīva MOE apmācība daudzuzdevumu daudzvalodu modeļiem. MOE modeļi ar apjomīgiem daudzvalodu datiem un neuzraudzītu daudzuzdevumu apmācību sniedz šādu modeļu neparedzētu iespēju nodrošināt patiesi universālas sistēmas, kas var vēl vairāk ļaut Microsoft Translator komandai novērst valodas barjeras visā pasaulē, kā arī atbalstīt dažādus dabiskās valodas ģenerēšanas uzdevumus.
Pateicības
Mēs vēlētos izteikt atzinību un pateikties Francisco Guzman - viņa komandai, kas savāca masveidā daudzvalodīgo FLORES testa komplektu un organizēja šo WMT trasi ar tik liela mēroga novērtējumu.