Monikielinen käännös mittakaavassa: 10000 kieliparia ja sen jälkeen
Microsoft etsii Tekoäly mittakaavassa kunnianhimoisesti, jotta seuraavan sukupolven tekoälykokemukset voidaan toteuttaa. Microsoft-kääntäjä ZCode tiimi tekee yhteistyötä Microsoft Project Turing ja Microsoft Research Asia edistääkseen kielen ja monikielisen tuen edistämistä tämän aloitteen ytimessä. Jatkamme monikielisten mallien rajojen ajamista tukemaan erilaisia kieliskenaarioita eri puolilla Microsoftia. Viime kesänä julkistimme suuren mittakaavamme Asiantuntijan monikielinen sekoitus malli, jossa on DeepSpeed jotka voivat päihittää yksittäiset laaja-alainen kaksikielinen malli. Äskettäin uusin Turingin yleinen kielen edustusmalli (T-ULRv5), Microsoftin luoma malli on jälleen kerran uusin ja Googlen huipulla XTREME julkinen tulostaulukko tuolloin. Viime aikoina Microsoft ilmoitti Megatron-Turing NLG 530B parametrien malli.
Vuosittainen konekäännöskonferenssi (alias WMT 2021) päättyi viime viikolla kauniissa Punta Canassa Dominikaanisessa tasavallassa. WMT kokoaa yhteen tutkijoita koko konekäännösalalta, sekä teollisuudesta että tiedemaailmasta, osallistumaan yhteisiin tehtäviin, joista jokainen määrittelee vertailuarvon tärkeällä konekäännöksen alalla alan työntämiseksi uusille rajoille.
Microsoft Translator ZCode -tiimi kilpaili yhdessä Turing-tiimin ja Microsoft Research Asia -tiimin kanssa "Laajassa monikielisessä käännös" -radassa, joka koostui täydestä tehtävästä kääntää kaikki 10 000 suuntaa 101 kielellä ja kaksi pientä tehtävää: Yksi keskittyi 5 keski- ja eteläeurooppalaiseen kieleen ja yksi viidellä Kaakkois-Aasian kielellä. Microsoft ZCode-DeltaLM -malli voitti kaikki kolme tehtävää valtavilla marginaaleilla, mukaan lukien uskomattoman 10 + pisteen vahvistuksen M2M100-mallista suuressa tehtävässä, joka arvioitiin massiivisilla 10 000 kieliparilla. (Wmt 2021 -jaetun tehtävän havainnot laajamittaisesta monikielisestä konekäännöksestä, Wenzek et al, WMT 2021).
Kuva 1: Viralliset tulokset (BLEU-pisteet) täydessä tehtävässä ja pieni tehtävä1 WMT 2021 Large Scale Multilingual Translation -tapahtumassa
ZCode-DeltaLM-lähestymistapa
Katsotaanpa tässä blogiviestissä voittavan Microsoft ZCode-DeltaLM -mallin konepellin alla. Lähtökohtanamme oli DeltaLM (DeltaLM: Encoder-Decoder-esikoulutus kielen luomiseen ja kääntämiseen lisäämällä ennalta koulutettuja monikielisiä koodereita), viimeisin Microsoftin yhä tehokkaampi sarja massiivisesti monikielisiä esikoulutettuja kielimalleja.
DeltaLM on enkooderi-dekooderimalli, mutta sen sijaan, että harjoiteisiin tyhjästä, se alustetaan aiemmin esikoulutetusta vain huippu-enkooderimallista, erityisesti (TULRv3). Vaikka kooderin alustaminen on suoraviivaista, dekooderi on vähemmän niin, koska se lisää ristiinhuomiota kooderin itsehuomioon. DeltaLM ratkaisee tämän ongelman uudella toisiinsa kietoutuneilla arkkitehtuureilla, jossa itsehuomio ja ristiinhuomio vuorottelevat kerrosten välillä, ja itsehuomiota käytetään parittomissa kerroksissa ja ristiinhuomiota käytetään tasaisissa kerroksissa. Tällä lomistuksen avulla dekooderirakenne vastaa kooderia, joten se voidaan alustaa samalla tavalla myös TULRv3: sta.
DeltaLM:ää täydentää ZCoden tehokas moniajo-oppiminen: Monikielisen neurokonekäännöksen monitehtäväoppiminen. Mallimme osoittavat, että moniajo- ja monikielisen oppimisen yhdistäminen voi merkittävästi parantaa koulutusta laajamittaisille esikoulutetuille kielimalleille. Tällainen monikielinen monivaiheinen oppimismalli hyödyntää induktiivista puolueellisuutta ja laillistamista useista tehtävistä ja kielistä samanaikaisesti suoriutuakseen paremmin erilaisissa jatkojalostustehtävissä. Käytämme käännöstehtävää, denoulomme automaattisen koodaustehtävän ja käännösvälin vioittumistehtävän alla olevan kuvan mukaisesti.
Massiivisesti monikielisen käännösraidan voittaminen
Rakentaaksemme voittavan massiivisesti monikielisen käännösjärjestelmän (Microsoftin monikieliset konekäännösjärjestelmät wmt21-jaettua tehtävää varten), aloitimme zCode-DeltaLM: llä ja lisäsimme muutamia temppuja.
Käytämme progressiivista oppimista, koulutamme ensin mallin, jossa on 24 enkooderikerrosta ja 12 dekooderikerrosta, ja jatkamme sitten harjoittelua 12 lisätyllä kooderikerroksella, mikä johtaa syvään 36-kerroksen kooderiin. Kaikkien kieliparien kattamiseksi luomme kaksois-pseudo-rinnakkaisia tietoja, joissa rinnakkaisten tietojen molemmat puolet ovat synteettisiä, käännetty mallilla englannista. Käytämme myös iteratiivista taustakäännöstä synteettisen datan tuottamiseen. Sovellamme opetussuunnitelman oppimista alkaen koko meluisasta koulutusdatasta ja vähentämällä sen sitten puhtaaksi osajoukoksi. Painotamme käännöstavoitteen uudelleen suosimaan rinnakkaisia tietoja taustakäännöksen ja kaksois pseudo-rinnakkaisten tietojen suhteen. Käytämme lämpötilanäytteenottoa tasapainottamaan kielipareja. Valitsemme jokaiselle kieliparille kehitysjoukon perusteella, haluatko mieluummin suoran käännöksen vai pivot-käännöksen englanniksi.
Kaiken kaikkiaan tiesimme, että meillä oli hämmästyttävä massiivisesti monikielinen järjestelmä, mutta sokean testisarjan viralliset tulokset ylittivät odotuksemme. Saimme 2,5-9 BLEU ennen seuraavaa kilpailijaa ja 10-21 BLEU pistettä ennen perusmallia M2M-175. Dev-testissä vertasimme suurempaaN M2M-615-malliin, jonka voitimme myös 10-18 pisteellä.
Kääntämisen ulkopuolella: Universaali kielentuotanto
Vaikka olemme innoissamme SUURESTA VOITOSTA WMT 2021: ssä, vielä jännittävämpää on, että toisin kuin muut kilpailijat, ZCode-DeltaLM-mallimme ei ole vain käännösmalli, vaan pikemminkin yleinen ennalta koulutettu kooderi-dekooderin kielimalli, jota voidaan käytetään kaikenlaisiin sukupolven tehtäviin kääntämisen lisäksi. Tämä todella antaa malleillemme mahdollisuuden suoriutua melko hyvin erilaisissa monikielisissä luonnollisen kielen sukupolven tehtävissä.
Saavutimme uuden SOTA:n monissa suosituissa sukupolven tehtävissä GEM-vertailuarvo, mukaan lukien Wikilingua (yhteenveto), tekstin yksinkertaistaminen (WikiAuto) ja rakenteesta tekstiin (WebNLG). DeltaLM-ZCode-malli päihittää laajalti paljon suuremmat mallit, kuten mT5 XL (3.7B), joka on myös koulutettu paljon suurempiin tietoihin. Tämä osoitti mallien tehokkuuden ja monipuolisuuden, mikä johti vahvaan suorituskykyyn monissa tehtävissä.
Kuva 2. ZCode-DeltaLM:n suorituskyky (RL-pisteet) GEM-vertailuarvon yhteenveto- ja tekstin yksinkertaistamistehtävissä
Katse eteenpäin
Monikielinen konekäännös on saavuttanut pisteen, jossa se toimii erittäin hyvin, ylittäen kaksikieliset järjestelmät sekä pienillä että suurilla resurssikielillä. Asiantuntijoiden (MoE) mallien seoksen on osoitettu sopivan erittäin hyvin skaalaamaan sellaisia malleja, kuten GShardissa on osoitettu. Tutkimme, miten tällaisia malleja voidaan skaalata tehokkaasti asiantuntijoiden sekoituksella: Skaalautuva ja tehokas MoE-koulutus monikielisille monivaiheisille malleille. MoE-mallit, joissa on massiivinen monikielinen data ja valvomaton moniajokoulutus, tarjoavat tällaisille malleille ennakoimattoman mahdollisuuden tarjota todella yleismaailmallisia järjestelmiä, joiden avulla Microsoft Translator -tiimi voi edelleen poistaa kielimuurit ympäri maailmaa sekä tukea erilaisia luonnollisen kielen luontitehtäviä.
Kiitokset
Haluamme kiittää ja kiittää Francisco Guzmania ja hänen tiimiään, joka keräsi massiivisesti monikielisen FLORES-testisarjan ja järjesti tämän WMT-radan niin laajamittaisella arvioinnilla.