Microsoft Translator ' i masintõlke teenus on selle lehe automaatselt tõlkinud. Lisateave

Microsofti tõlkija blogi

Mitmekeelne tõlge skaalal: 10000 keelepaari ja kaugemalgi

Microsoft otsib AI skaalal suure ambitsiooniga võimaldada järgmise põlvkonna tehisintellekti kogemusi. Microsofti tõlkija ZCode Meeskond teeb koostööd Microsoft Project Turing ja Microsoft Research Asia, et edendada selle algatuse keskmes olevat keele- ja mitmekeelset tuge. Jätkame mitmekeelsete mudelitega piiride nihutamist, et toetada erinevaid keelestsenaariume kogu Microsoftis. Eelmisel suvel kuulutasime välja oma suuremahulise Multi-lingual segu ekspert mudel koos DeepSpeed mis võib ületada üksikuid suuremahulisi kakskeelseid mudeleid. Hiljuti viimane Turingi universaalne keeleesindusmudel (T-ULRv5), microsofti loodud mudel on taas tehnika tase ja Google'i ülaosas XTREME avalik edetabel Sel ajal. Hiljuti teatas Microsoft suurimast Megatron-Turing NLG 530B parameetrite mudel.

Masintõlke aastakonverents (teise nimega WMT 2021) lõppes eelmisel nädalal dominikaani Vabariigis punta canas. WMT toob kokku teadlased kogu masintõlke valdkonnast, nii tööstusest kui ka akadeemilistest ringkondadest, et osaleda mitmetes jagatud ülesannetes, millest igaüks määratleb võrdlusaluse olulises masintõlke valdkonnas, et suruda väli uutele piiridele.

Microsoft Translator ZCode'i meeskond, kes tegi koostööd Turingi meeskonna ja Microsoft Research Asiaga, võistles "suuremahulise mitmekeelse tõlke" rajal, mis koosnes täielikust ülesandest tõlkida kõigi 10 000 suuna vahel 101 keeles, ja kahest väikesest ülesandest: üks keskendus 5 Kesk- ja Lõuna-Euroopa keelele ning üks viiest Kagu-Aasia keelest. Microsoft ZCode-DeltaLM mudel võitis kõik kolm ülesannet tohutute marginaalidega, sealhulgas uskumatu 10+ punkti võrra üle M2M100 mudeli suures ülesandes, mida hinnati massiivsel 10 000 keelepaaril. (2021. aasta WMT ühisülesande tulemused suuremahulise mitmekeelse masintõlke kohta, Wenzek et al, WMT 2021).

Joonis 1: Ametlikud tulemused (BLEU hinded) täisülesande ja väikese ülesande kohta1 WMT 2021 suuremahulise mitmekeelse tõlke jagatud ülesandel

ZCode-DeltaLM lähenemine

Selles blogipostituses vaatame võitnud Microsoft ZCode-DeltaLM mudeli kapoti all. Meie lähtepunktiks oli DeltaLM (DeltaLM: kodeerija-dekoodri eelkoolitus keele genereerimiseks ja tõlkimiseks, täiendades eelõppega mitmekeelseid kodeerijaid), viimane microsofti üha võimsamas seerias massiliselt mitmekeelseid eelõppega keelemudeleid.


DeltaLM on kodeerija-dekoodri mudel, kuid nullist treenimise asemel lähtestatakse see eelnevalt eelnevalt koolitatud kaasaegsest kodeerijapõhisest mudelist , täpsemalt (TULRv3). Kuigi kodeerija lähtestamine on lihtne, on dekooder vähem, kuna see lisab kodeerija enesetähelepanu. DeltaLM lahendab selle probleemi uudse põimitud arhitektuuriga, kus kihtide vahel vahelduvad enese tähelepanu ja risttähelepanu, kusjuures paaritutes kihtides kasutatakse enese tähelepanu ja ühtlases kihis kasutatavat rist tähelepanu. Selle põimimisega sobib dekoodri struktuur kodeerijaga ja nii saab seda ka TULRv3-st samamoodi lähtestada.

DeltaLM-i suurendab ZCode võimas multitegumõpe: Mitmeotstarbeline õppimine mitmekeelse närvimasina tõlkimiseks. Meie mudelid näitavad, et mitmeotstarbelise ja mitmekeelse õppe kombineerimine võib oluliselt parandada suuremahuliste eelõppega keelemudelite koolitust. Selline mitmeotstarbeline mitmekeelne õppeparadigma võimendab induktiivset eelarvamust ja seadustamist mitmest ülesandest ja keelest samaaegselt, et paremini täita erinevaid järgnevaid ülesandeid. Me kasutame tõlkeülesannet, denoising auto kodeerija ülesanne ja tõlkimine span korruptsiooni ülesanne, nagu on näidatud joonisel alloleval joonisel.

Massiliselt mitmekeelse tõlkeraja võitmine

Ehitada meie võitnud massiliselt mitmekeelne tõlkesüsteem (Mitmekeelsed masintõlkesüsteemid Microsoftilt WMT21 jagatud ülesande jaoks), alustasime zCode-DeltaLM-iga ja lisasime mõned trikid.

Rakendame progressiivset õppimist, koolitades kõigepealt mudelit 24 kodeerijakihi ja 12 dekoodrikihiga, seejärel jätkame koolitust 12 lisatud kodeerimiskihiga, mille tulemuseks on sügav 36-kihiline kodeerija. Kõigi keelepaaride katmiseks genereerime kahe pseudo-paralleelseid andmeid, kus paralleelsete andmete mõlemad pooled on sünteetilised, tõlgitud mudeli poolt inglise keelest. Samuti rakendame sünteetiliste andmete genereerimiseks iteratiivset järeltõlget. Rakendame õppekavaõpet, alustades kogu mürarikkast koolitusandmetest, seejärel vähendades seda puhtaks alamhulgaks. Kaalume tõlkeeesmärki ümber, et eelistada paralleelseid andmeid tagatõlkele ja topelt-pseudo-paralleelandmetele. Me rakendame temperatuuriproovide võtmist, et tasakaalustada keelepaare. Iga keelepaari puhul valime dev-komplekti põhjal, kas eelistada otsetõlget või pöörata tõlget inglise keele kaudu.

Seda kõike kokku pannes teadsime, et meil on hämmastav tohutult mitmekeelne süsteem, kuid pimedate testikomplekti ametlikud tulemused ületasid meie ootusi. Me viskasime 2,5-9 BLEU enne järgmist konkurenti ja 10-21 BLEU punkti enne M2M-175 baasmudelit. Dev testis võrdlesime suuremat M2M-615 mudelit, mida võitsime ka 10-18 punktiga.

Lisaks tõlkimisele: universaalne keelepõlv

Kuigi me oleme põnevil WMT 2021 suure võidu üle, on veelgi põnevam see, et erinevalt teistest konkurentidest ei ole meie ZCode-DeltaLM mudel mitte ainult tõlkemudel, vaid pigem üldine eeltreenitud kodeerija-dekoodri keelemudel, mida saab kasutada igasuguste põlvkonna ülesannete jaoks peale tõlke. See võimaldab meie mudelitel tõesti täita üsna hästi erinevaid mitmekeelseid loomuliku keele genereerimise ülesandeid.

Jõudsime uue SOTA-ni paljudes populaarsetes tootmisülesannetes alates GEM Benchmark, sealhulgas Wikilingua (summriseerimine), teksti lihtsustamine (WikiAuto) ja struktuur tekstile (WebNLG). DeltaLM-ZCode mudel ületab laialdaselt palju suuremaid mudeleid, nagu mT5 XL (3.7B), mida koolitatakse ka palju suuremate andmete põhjal. See näitas mudelite tõhusust ja mitmekülgsust, mis tõi kaasa tugeva jõudluse paljudes ülesannetes.

Joonis 2. ZCode-DeltaLM-i jõudlus (RL-skoorid) summariseerimise ja teksti lihtsustamise ülesannete kohta GEM-i võrdlusaluses

Tulevikku vaadates

Mitmekeelne masintõlge on jõudnud punkti, kus see toimib väga hästi, ületades kakskeelseid süsteeme nii madala kui ka kõrge ressursiga keeltes. Ekspertide (MoE) mudelite segu on osutunud väga sobivaks selliste mudelite laiendamiseks, nagu on näidatud GShardis. Uurime, kuidas selliseid mudeleid ekspertide seguga tõhusalt skaleerida: Skaleeritav ja tõhus MoE koolitus mitmeotstarbeliste mudelite jaoks. MoE mudelid, millel on ulatuslikud mitmekeelsed andmed ja järelevalveta mitmeotstarbeline koolitus, pakuvad sellistele mudelitele ettevaatamatut võimalust pakkuda tõeliselt universaalseid süsteeme, mis võimaldavad Microsoft Translatori meeskonnal veelgi kõrvaldada keelebarjäärid kogu maailmas ning toetada mitmesuguseid loomuliku keele genereerimise ülesandeid.

Tunnustused

Soovime tunnustada ja tänada Francisco Guzmani ja tema meeskonda, kes kogusid massiliselt mitmekeelse FLORES-testikomplekti ja korraldasid selle massihävitusrelvade raja nii ulatusliku hindamisega.