Fara í aðalefni
Þýðandi
Þetta page hefur verið sjálfkrafa þýtt með því að Microsoft Þýðandi er vél þýðing þjónustu. Læra meira

Microsoft Þýðandi Blogg

Fjöltyngd þýðing í mælikvarða: 10000 tungumálapör og víðar

Microsoft er í leit að Ómar á Skala með mikinn metnað til að virkja næstu kynslóð af reynslu AI. Microsoft-þýðandinn ZCode teymið vinnur með Microsoft Project Turing og Microsoft Research Asia til að þróa tungumál og fjöltyngdan stuðning kjarna þessa framtaks. Við höldum áfram að ýta á landamæri með fjöltyngdum gerðum til að styðja við ýmsar tungumálaaðstæður í Microsoft. Síðasta sumar tilkynntum við stórfelldan mælikvarða okkar Fjöltyngd blanda af sérfræðingi líkan með Djúpsteðja sem geta farið fram úr einstökum stórum tvímálslíkönum. Nýlega, nýjasta Turing alhliða tungumál framsetning líkan (T-ULRv5), Microsoft-búið líkan er enn og aftur ástand listarinnar og efst á Google XTREME opinber topplisti á þeim tíma. Nýlega tilkynnti Microsoft stærsta Megatron-Turing NLG 530B færibreytulíkan.

Árlegri ráðstefnu um vélþýðingar (aka WMT 2021) lauk í síðustu viku í fallega Punta Cana í Dóminíska lýðveldinu. WMT sameinar vísindamenn frá öllu sviði vélþýðingar, bæði iðnaðar og fræðasviðs, til að taka þátt í röð sameiginlegra verkefna, sem hver um sig skilgreinir viðmið á mikilvægu sviði vélþýðinga til að ýta reitnum inn á ný landamæri.

Microsoft Translator ZCode teymið, sem vann með Turing team og Microsoft Research Asia, keppti í "Large-scale Multilingual Translation" laginu, sem samanstóð af fullu verkefni um að þýða á milli allra 10,000 leiðsagnar á 101 tungumáli og tveimur litlum verkefnum: Eitt lagði áherslu á 5 mið- og suður-evrópsk tungumál og eitt á 5 suðaustur asískum tungumálum. Microsoft ZCode-DeltaLM líkanið vann öll þrjú verkefnin með miklum framlegð, þar á meðal ótrúlegum 10 + stiga ávinningi yfir M2M100 líkanið í stóra verkefninu sem metið var á gríðarstórum 10,000 tungumálapörum. (Niðurstöður WMT 2021 samnýtts verkefnis um stórfellda fjöltyngda vélaþýðingu, Wenzek o.fl., WMT 2021).

Mynd 1: Opinberar niðurstöður (BLEU stig) á fullu verki og smáverkefninu1 á WMT 2021 Stórum mælikvarða fjöltyngdum þýðingum

ZCode-DeltaLM nálgunin

Í þessari bloggfærslu skulum kíkja undir vélarhlífina á vinningslíkaninu Microsoft ZCode-DeltaLM. Upphafspunktur okkar var DeltaLM (DeltaLM: Kóðunar-afkótari forþjálfun fyrir tungumálamyndun og þýðingar með því að auka forþjálfaða fjöltyngdra kóðara), það nýjasta í sífellt öflugri röð af gríðarlega fjöltyngdum forþjálfuðum tungumálalíkönum frá Microsoft.


DeltaLM er kóðara-afkótara líkan, en í stað þess að þjálfa frá grunni, er það frumstillt úr áður forþjálfaðri stöðu-af-the-list kóðari-aðeins líkan, sérstaklega (TULRv3). Þó að frumstilla kóðarann er einfalt, afkótarinn er minna svo, þar sem það bætir kross-athygli við sjálfsathugun kóðarans. DeltaLM leysir þetta vandamál með skáldsögu fléttað arkitektúr, þar sem sjálfsathuðla og kross-athygli skipti á milli laga, með sjálfsathygli sem notuð er í skrítnum lögum og krossathygli sem notuð eru í jöfnum lögum. Með þessari samspili passar afkótara uppbyggingin við kóðarann og svo er einnig hægt að frumstilla hana á sama hátt frá TULRv3.

DeltaLM er aukið af ZCode öflugu fjölverkanámi: Fjölverkanám fyrir fjöltyngda taugavélaþýðingu. Líkön okkar sýna að það að sameina fjölverka- og fjöltyngt nám getur bætt þjálfun verulega fyrir stórfelld fyrirfram þjálfað tungumálalíkön. Slík fjöltyngd fjöltyngd námshugmynd er að nýta iðkandi hlutdrægni og reglusetningu frá nokkrum verkefnum og tungumálum samtímis til að standa sig betur í ýmsum verkefnum niður á við. Við erum að nota þýðingarverkefni, afnema sjálfvirkt kóðaraverkefni og þýðingar á sviði spillingar eins og sýnt er á myndinni hér að neðan.

Að vinna gríðarlega fjöltyngt þýðingarlag

Til að byggja upp sigur okkar gríðarlega fjöltyngt þýðingarkerfi (Fjöltyngd vélaþýðingarkerfi frá Microsoft fyrir WMT21 samnýtt verk), við byrjuðum með zCode-DeltaLM og bættum við nokkrum brellum.

Við beitum framsæknu námi, fyrst að þjálfa líkan með 24 kóðara lögum og 12 afkótara lögum, þá halda áfram þjálfun með 12 viðbættum kóðara lögum, sem leiðir til djúpt 36 lag kóðara. Til að ná yfir öll tungumálapör búum við til tvíþætt gervi-samhliða gögn þar sem báðar hliðar samhliða gagna eru tilbúnar, þýddar af líkaninu úr ensku. Við beitum einnig ítrekuðum bakþýðingum til að búa til tilbúin gögn. Við beitum námskrá, byrjum á öllum háværum þjálfunargögnum og minnkum þau síðan í hreint undirmengi. Við endurþyngd þýðingarmarkmiðsins til að stuðla að samhliða gögnum yfir bakþýðingu og tvíþýðingar-samhliða gögn. Við beitum hitastigssýni til að halda jafnvægi á milli tungumálapöra. Fyrir hvert tungumálapar veljum við, byggt á dev settinu, hvort sem það á að kjósa beina þýðingu eða veltiþýðingu í gegnum ensku.

Með því að setja þetta allt saman vissum við að við værum með ótrúlega fjöltyngt kerfi, en opinberar niðurstöður á blinda prófinu fóru fram úr væntingum okkar. Við skoruðum 2,5 til 9 BLEU á undan næsta keppanda og 10 til 21 BLEU stigum á undan grunnlínu M2M-175 líkaninu. Á dev prófinu bárum við saman við stærri M2M-615 líkanið, sem við unnum einnig með 10 til 18 stigum.

Beyond Translation: Alhliða tungumálamyndun

Þó að við séum spennt fyrir stóra vinningnum hjá WMT 2021, það sem er enn meira spennandi er að ólíkt öðrum keppendum er ZCode-DeltaLM líkanið okkar ekki bara þýðingarlíkan, heldur almennt forhúðað kóðaramálslíkan, nothæft fyrir alls kyns kynslóðar verkefni umfram þýðingar. Þetta gerir líkönum okkar virkilega kleift að standa sig nokkuð vel í ýmsum verkefnum á mörgum tungumálamyndun.

Við náðum nýrri SOTA í mörgum vinsælum kynslóðarverkefnum frá GEM-viðmið, þar á meðal Wikilingua (samantekt), texta einföldun (WikiAuto) og uppbygging til texta (WebNLG). DeltaLM-ZCode líkanið er víða framúrskarandi miklu stærri gerðir eins og mT5 XL (3.7B) sem er einnig þjálfað á miklu stærri gögnum eins og heilbrigður. Þetta sýndi fram á skilvirkni og fjölhæfni fyrirsætanna sem leiddi til sterkrar frammistöðu í mörgum verkefnum.

Mynd 2. Afköst (RL stig) ZCode-DeltaLM á samantektar- og texta einföldunarverkum í GEM-viðmiðinu

Horft fram á veginn

Fjöltyngd vél Þýðing hefur náð þeim stað þar sem það stendur sig mjög vel, umfram tvítyngd kerfi, bæði á lágum og háum auðlindamálum. Sýnt hefur verið fram á að blanda af módelum sérfræðinga (MoE) hentar mjög vel til að skala upp slíkar gerðir eins og sýnt hefur verið fram á í GShard. Við könnum hvernig á að skala slík líkön á skilvirkan hátt með Blöndu af sérfræðingum: Stigstærð og skilvirk MoE þjálfun fyrir multitask fjöltyngd módel. MoE módel með gegnheill fjöltyngd gögn og án eftirlits multitask þjálfun kynna ófyrirséð tækifæri fyrir slík líkön til að veita sannarlega alhliða kerfi sem geta frekar gert Microsoft Translator teyminu kleift að útrýma tungumálahindrunum um allan heim, auk þess að styðja við ýmis verkefni náttúrulegrar tungumálamyndunar.

Viðurkenningar

Við viljum viðurkenna og þakka Francisco Guzman - teymi hans sem safnaði gríðarlega fjöltyngdu FLORES prófunarsettinu og skipulagði þetta WMT lag með svo stóru mati.