Traducere multilingvă la scară largă: 10000 de perechi de limbi și mai mult
Microsoft este într-o căutare pentru IA la scară largă cu ambiție ridicată pentru a permite următoarea generație de experiențe IA. Traducătorul Microsoft ZCode echipa lucrează împreună cu Microsoft Project Turing și Microsoft Research Asia pentru a promova asistența lingvistică și multilingvă în centrul acestei inițiative. Continuăm să împingem frontierele cu modele multilingve pentru a accepta diverse scenarii lingvistice în Microsoft. Vara trecută, am anunțat amploarea noastră pe scară largă Amestec multilingv de expert model cu DeepSpeed care pot depăși modelele bi-linguale individuale la scară largă. Recent, cel mai recent model turing de reprezentare a limbajului universal (T-ULRv5), un model creat de Microsoft este din nou stadiul actual al tehnologiei și în partea de sus a Google Clasamentul public XTREME la acel moment. Mai recent, Microsoft a anunțat cel mai mare Megatron-Turing NLG 530B model de parametri.
Conferința anuală privind traducerea automată (alias WMT 2021) s-a încheiat săptămâna trecută în frumoasa Punta Cana, Republica Dominicană. WMT reunește cercetători din întregul domeniu al traducerii automate, atât din industrie, cât și din mediul academic, pentru a participa la o serie de sarcini comune, fiecare definind un punct de referință într-un domeniu important al traducerii automate pentru a împinge domeniul în noi frontiere.
Echipa Microsoft Translator ZCode, care lucrează împreună cu echipa Turing și Microsoft Research Asia, a concurat în piesa "Traducere multilingvă la scară largă", care a constat într-o sarcină completă de traducere între toate cele 10.000 de direcții în 101 limbi și două sarcini mici: una axată pe 5 limbi din Europa Centrală și de Sud și una pe 5 limbi din Asia de Sud-Est. Modelul Microsoft ZCode-DeltaLM a câștigat toate cele trei sarcini cu marje uriașe, inclusiv un câștig incredibil de peste 10 puncte față de modelul M2M100 în sarcina mare evaluată pe un masiv 10.000 de perechi de limbi. (Constatările sarcinii comune WMT 2021 privind traducerea automată multilingvă la scară largă, Wenzek et al, WMT 2021).
Figura 1: Rezultate oficiale (scoruri BLEU) privind sarcina completă și sarcina mică1 la sarcina comună wmt 2021 traducere multilingvă la scară largă
Abordarea ZCode-DeltaLM
În această postare pe blog, să aruncăm o privire sub capotă la modelul câștigător Microsoft ZCode-DeltaLM. Punctul nostru de plecare a fost DeltaLM (DeltaLM: Pre-training encoder-decodor pentru generarea și traducerea limbilor străine prin augmentarea codificatoarelor multilingve precalificate), cea mai recentă din seria din ce în ce mai puternică de modele lingvistice precalificate multilingve masiv de la Microsoft.
DeltaLM este un model codificator-decodor, dar în loc să se antreneze de la zero, este inițializat de la un model de codare de ultimă generație precalificat anterior, în special (TULRv3). În timp ce inițializarea codificatorului este simplă, decodorul este mai puțin, deoarece adaugă atenție încrucișată atenției de sine a codificatorului. DeltaLM rezolvă această problemă cu o arhitectură intercalată inedită, în care atenția de sine și atenția încrucișată alternează între straturi, cu atenția de sine folosită în straturile impare și atenția încrucișată folosită în straturile uniforme. Cu această intercalare, structura decodorului se potrivește cu codificatorul și astfel poate fi inițializată în același mod de la TULRv3.
DeltaLM este augmentat de ZCode puternic multitask de învățare: Învățare multi-sarcină pentru traducere automată neuronală multilingvă. Modelele noastre arată că combinarea învățării multitasking și multilingve poate îmbunătăți în mod semnificativ formarea pentru modele lingvistice precalificate la scară largă. O astfel de paradigmă de învățare multilingvă multitasking utilizează prejudecățile inductive și regularizarea din mai multe sarcini și limbi simultan pentru a efectua mai bine pe diferite sarcini din aval. Folosim sarcina de traducere, denoising auto encoder sarcină și traducere span corupție sarcină așa cum se arată în figura de mai jos.
Câștigarea pistei de traducere masiv multilingvă
Pentru a construi sistemul nostru de traducere multilingv masiv câștigător (Sisteme de traducere automată multilingve de la Microsoft pentru activitatea partajată WMT21), am început cu zCode-DeltaLM și am adăugat câteva trucuri.
Aplicăm învățarea progresivă, antrenăm mai întâi un model cu 24 de straturi codificatoare și 12 straturi de decodor, apoi continuăm antrenamentul cu 12 straturi de codificator adăugate, rezultând un codificator adânc de 36 de straturi. Pentru a acoperi toate perechile lingvistice, generăm date dual-pseudo-paralele în care ambele părți ale datelor paralele sunt sintetice, traduse de modelul din limba engleză. De asemenea, aplicăm back-translation iterativ pentru a genera date sintetice. Aplicăm învățarea curriculumului, începând cu toate datele zgomotoase de instruire, apoi reducându-le la un subset curat. Re-ponderăm obiectivul de traducere pentru a favoriza datele paralele față de datele back-translation și dual-pseudo-paralele. Aplicăm eșantionarea temperaturii pentru a echilibra între perechile lingvistice. Pentru fiecare pereche de limbi, alegem, pe baza setului de dev, dacă preferăm traducerea directă sau traducerea pivot prin limba engleză.
Punând totul cap la cap, știam că avem un sistem uimitor de multilingv masiv, dar rezultatele oficiale ale setului de teste oarbe ne-au depășit așteptările. Am marcat 2.5 la 9 BLEU înainte de următorul concurent, și 10 la 21 de puncte BLEU înainte de modelul de bază M2M-175. La testul dev am comparat cu modelul mai mare M2M-615, pe care l-am învins și cu 10 până la 18 puncte.
Dincolo de traducere: Generarea limbajului universal
Deși suntem încântați de marele câștig de la WMT 2021, ceea ce este și mai interesant este că, spre deosebire de ceilalți concurenți, modelul nostru ZCode-DeltaLM nu este doar un model de traducere, ci mai degrabă un model general de limbaj codificator-decodor precalificat, utilizabil pentru tot felul de sarcini de generație dincolo de traducere. Acest lucru permite într-adevăr modelele noastre pentru a efectua destul de bine pe diverse sarcini multilingve de generare a limbajului natural.
Am ajuns la un nou SOTA în multe sarcini de generație populare de la GEM Benchmark, inclusiv Wikilingua (rezumare), Simplificarea textului (WikiAuto) și structura-text (WebNLG). Modelul DeltaLM-ZCode depășește pe scară largă modele mult mai mari, cum ar fi mT5 XL (3.7B), care este, de asemenea, instruit pe date mult mai mari, de asemenea. Acest lucru a demonstrat eficiența și versatilitatea modelelor, ceea ce a dus la performanțe puternice în multe sarcini.
Figura 2. Performanța (scorurile RL) ale ZCode-DeltaLM privind sarcinile de rezumare și simplificare a textului în indicele de referință GEM
Privind în perspectivă
Traducerea automată multilingvă a ajuns într-un punct în care funcționează foarte bine, depășind sistemele bilingve, atât pe limbile cu resurse reduse, cât și pe cele cu resurse ridicate. Amestecul de modele Expert (MoE) s-a dovedit a fi o potrivire foarte bună pentru a extinde astfel de modele, așa cum s-a arătat în GShard. Explorăm cum să scalăm eficient astfel de modele cu amestec de experți: Instruire moE scalabilă și eficientă pentru modele multilingve multitask. Modelele MoE cu date multilingve masive și instruire multitasking nesupravegheată prezintă oportunități neprecedente pentru astfel de modele de a oferi sisteme cu adevărat universale care pot permite în continuare echipei Microsoft Translator să elimine barierele lingvistice din întreaga lume, precum și să sprijine o varietate de sarcini de generare a limbajului natural.
Mulţumirilor
Dorim să-i recunoaștem și să-i mulțumim lui Francisco Guzman și echipei sale care a colectat setul de teste FLORES masiv multilingv și a organizat această pistă WMT cu o evaluare atât de largă.