Preskoči na glavno vsebino
Prevajalec
Ta stran je bila samodejno prevedena s strojno prevajanje Microsoft Translator storitev. Preberite več

Microsoftov prevajalec blog

Večjezični prevod na lestvici: 10000 jezikovnih parov in več

Microsoft išče AI na lestvici z visoko ambicijo, da bi omogočili naslednjo generacijo izkušenj z AI. Microsoftov prevajalnik ZCode sodeluje z Microsoft Project Turing in Microsoft Research Asia za napredovanje jezikovne in večjezične podpore v jedru te pobude. Še naprej potiskamo meje z večjezičnimi modeli, ki podpirajo različne jezikovne scenarije po vsem Microsoftu. Lansko poletje smo napovedali našo veliko razsežnost Večjezična mešanica strokovnjakov model z DeepSpeed ki lahko prehitijo posamezne velike bijezične modele. Pred kratkim je najnovejši Turingov model univerzalne jezikovne zastopanosti (T-ULRv5), je model, ki ga je ustvaril Microsoft, ponovno stanje umetnosti in na vrhu XTREME javna lestvica v tem času. V zadnjem času je Microsoft napovedal največje Megatron-Turing NLG 530B parametrov.

Letna konferenca o strojnem prevajanje (alias WMT 2021) se je prejšnji teden zaključila v lepi Punta Cani, Dominikanska republika. WMT je združil raziskovalce iz celotnega področja strojnega prevajanja, tako industrije kot akademske skupnosti, da bi sodelovali v nizu skupnih nalog, pri tem pa vsak opredeli referenčno vrednost na pomembnem področju strojnega prevajanja, da bi polje potisnil v nove mejo.

Skupina Microsoft Translator ZCode je skupaj s Turingovo ekipo in Microsoft Research Asia tekmovala na progi "Obsežno večjezično prevajanje", ki je bila sestavljena iz popolne naloge prevajanja med vseh 10.000 smermi v 101 jezikih in dvema malima nalogama: ena je bila osredotočena na 5 srednjeevropskih in južnoevropskih jezikov, ena pa na 5 jugovzhodnih azijskih jezikov. Model Microsoft ZCode-DeltaLM je dobil vse tri naloge z ogromnimi robovi, vključno z neverjetnim 10+ točkovnim dobičkom nad modelom M2M100 v veliki nalogi, ocenjeni na masivnih 10.000 jezikovnih parih. (Ugotovitve skupne naloge WMT 2021 o obsežnem večjezičnem strojnem prevajanje, Wenzek et al, WMT 2021).

Slika 1: Uradni rezultati (rezultati BLEU) o celoviti nalogi in malem opravilu1 na nalogi WMT 2021 obsežnega večjezičnega prevajanja

Pristop ZCode-DeltaLM

V tej objavi v spletnem dnevniku si poglejmo pod kapuco na zmagovalnem modelu Microsoft ZCode-DeltaLM. Naše izhodišče je bilo DeltaLM (DeltaLM: Encoder-Decoder Predhodno usposabljanje za jezikovno ustvarjanje in prevajanje z Augmenting Preained Multilingual Encoders), najnovejša v vse močnejši seriji množično večjezičnih jezikovnih modelov iz Microsofta.


DeltaLM je enkoder-dekoder model, vendar namesto usposabljanja iz nič, je inicializiran iz predhodno predhodno zaučen najmoderni encoder-only model, posebej (TulRv3). Medtem ko je inicializacija koderja enostavna, je dekoder manj, saj dodaja navzkrižno pozornost samopomoči koderja. DeltaLM to težavo rešuje z romanom interleaved arhitekture, kjer se samopomoči in navzkrižna pozornost izmenično spreminjata med plastmi, s samopomočitvijo, ki se uporablja v čudnih plasteh in navzkrižno pozornost, ki se uporablja v pravih plasteh. S to interleaving, dekoder strukturo ujema enkoder, in tako se lahko tudi inicializira enako iz TULRv3.

DeltaLM je povečan z ZCode zmogljivo večopravilno učenje: Večnamensko učenje za večjezično prevajanje nevralnih strojev. Naši modeli kažejo, da lahko kombiniranje večopravilnega in večjezičnega učenja bistveno izboljša usposabljanje za obsežne predhodnje jezikovne modele. Taka večjezična učna paradigma več jezikov spodbuja induktivno pristranskost in redizacijo iz več nalog in jezikov hkrati za boljše izvajanje različnih nalog v nadaljnjem teku. Uporabljamo prevajalsko nalogo, denoising auto encoder opravilo in prevajanje razpon korupcije nalogo, kot je prikazano na spodnji sliki.

Zmago na množično večjezični prevajalski skladbi

Za izgradnjo našega zmagovalnega množično večjezičnega prevajalskega sistema (Večjezični strojni prevajalski sistemi iz Microsofta za opravilo WMT21 v skupni rabi), smo začeli z zCode-DeltaLM, in dodali nekaj trikov.

Izvajamo progresivno učenje, najprej treniramo model z 24 plastmi koderja in 12 sloji dekoderja, nato nadaljujemo usposabljanje z 12 dodanimi sloji koderja, kar ima za posledico globok 36 plastni koder. Za pokrivanje vseh jezikovnih parov ustvarimo dvojno-psevdo-vzporedne podatke, kjer sta obe strani vzporednih podatkov sintetični, prevedeni po modelu iz angleščine. Za ustvarjanje sintetičnih podatkov uporabimo tudi iterativno prevajanje nazaj. Uporabimo učne načrte, začenš s celotnimi hrupni podatki usposabljanja, nato pa jih zmanjšamo na čisto podskupino. Vnašamo cilj prevajanja, da se vzporedni podatki uporabijo za prevajanje in dvojno-psevdo-vzporedne podatke. Vzorčenje temperature uporabimo za ravnotežje med jezikovnim parom. Za vsak jezikovni par izberemo, na podlagi nabora dev, ali raje neposredno prevajanje ali pivot prevajanje prek angleščine.

Skupaj smo vedeli, da imamo neverjetno večjezični sistem, vendar so uradni rezultati testa na slepem presegali naša pričakovanja. Pred naslednjim tekmecem smo zadeli 2,5 do 9 BLEU, pred izhodiščnim modelom M2M-175 pa 10 do 21 točk BLEU. Na testu DEV smo primerjali z večjim modelom M2M-615, ki smo ga premagali tudi za 10 do 18 točk.

Beyond Translation: Universal Language Generation

Medtem ko smo navdušeni nad veliko zmago na WMT 2021, kar je še bolj razburljivo je, da za razliko od drugih konkurentov, naš model ZCode-DeltaLM ni samo prevajalski model, ampak splošni vnaprej preained encoder-decoder jezikovni model, ki se uporablja za vse vrste generacijskih nalog izven prevoda. To našim modelom resnično omogoča precej dobro opravljanje različnih večjezičnih nalog za ustvarjanje naravnega jezika.

Dosegli smo novo SOTA v številnih nalogah priljubljene generacije iz Referenčna vrednost GEM, vključno z Wikilinguo (povzetek), poenostavitev besedila (WikiAuto) in strukturo v besedilo (WebNLG). Model DeltaLM-ZCode močno presežna veliko večje modele, kot je mT5 XL (3.7B), ki je tudi usposobljen na veliko večjih podatkih. To je pokazalo učinkovitost in vsestranskost modelov, ki vodijo k močni uspešnosti na številnih nalogah.

Slika 2. Uspešnost (rezultati RL) ZCode-DeltaLM na opravilih povzetka in poenostavitve besedila v referenčni vrednosti GEM

Gleda naprej

Večjezično strojno prevajanje je doseglo točko, kjer zelo dobro opravlja dvojezične sisteme, tako na nizkih kot v jezikih z visokimi viri. Zmes modelov strokovnjakov (MoE) se je izkazala za zelo dobro prilega za povešanje takšnih modelov, kot je bilo prikazano v GShardu. Raziskujemo, kako učinkovito razsežnost takšnih modelov z Mešanico strokovnjakov: Scalable in učinkovito usposabljanje MOE za večjezične modele. Modeli MOE z velikimi večjezičnimi podatki in nespremenjenim večopravilnim usposabljanjem predstavljajo priložnost za takšne modele, da zagotovijo resnično univerzalne sisteme, ki lahko še dodatno omogočijo skupini Microsoft Translator, da odpravi jezikovne ovire po vsem svetu, kot tudi podpira različne naloge za ustvarjanje naravnega jezika.

Priznanj

Želimo priznati in se zahvaliti Francisco Guzman & njegovi ekipi, ki je zbrala masivno večjezični FLORES testni set in organizirala to WMT progo s tako obsežno oceno.