Overslaan naar hoofdinhoud
Translator
Deze pagina is automatisch vertaald door de machine vertaalservice van Microsoft Translator. Meer informatie

Microsoft Translator Blog

Meertalige vertaling op schaal: 10000 talenparen en meer

Microsoft is op zoek naar AI op schaal met een hoge ambitie om de volgende generatie AI-ervaringen mogelijk te maken. De Microsoft Translator Zcode team werkt samen met Microsoft-project Turing en Microsoft Research Asia om taal- en meertalige ondersteuning te bevorderen die de kern van dit initiatief vormen. We blijven grenzen verleggen met meertalige modellen om verschillende taalscenario's binnen Microsoft te ondersteunen. Afgelopen zomer kondigden we onze grootschalige Meertalig mengsel van expert model met DeepSpeed die beter kunnen presteren dan individuele grootschalige tweetalige modellen. Onlangs is het nieuwste Turing universal language representation model (T-ULRv5), is een door Microsoft gemaakt model opnieuw de state of the art en aan de top van de Google XTREME openbaar klassement op dat moment. Meer recent kondigde Microsoft de grootste aan Megatron-Turing NLG 530B parameters model.

De jaarlijkse Conferentie over Machinevertaling (aka WMT 2021) werd vorige week afgesloten in het prachtige Punta Cana, Dominicaanse Republiek. WMT brengt onderzoekers uit het hele machinevertalingsveld, zowel de industrie als de academische wereld, samen om deel te nemen aan een reeks gedeelde taken, die elk een benchmark definiëren op een belangrijk gebied van machinevertaling om het veld naar nieuwe grenzen te duwen.

Het Microsoft Translator ZCode-team, dat samenwerkte met het Turing-team en Microsoft Research Asia, nam deel aan de track "Large-scale Multilingual Translation", die bestond uit een volledige taak van het vertalen tussen alle 10.000 richtingen in 101 talen, en twee kleine taken: een gericht op 5 Centraal- en Zuid-Europese talen en een op 5 Zuidoost-Aziatische talen. Het Microsoft ZCode-DeltaLM-model won alle drie de taken met enorme marges, waaronder een ongelooflijke winst van meer dan 10 punten ten opzichte van het M2M100-model in de grote taak die werd geëvalueerd op een enorme 10.000 talenparen. (Bevindingen van de gedeelde taak van WMT 2021 over grootschalige meertalige machinevertaling, Wenzek et al, WMT 2021).

Figuur 1: Officiële resultaten (BLEU-scores) op de Full-Task en de Small-Task1 op de WMT 2021 Large Scale Multilingual Translation shared task

De ZCode-DeltaLM aanpak

Laten we in deze blogpost eens onder de motorkap kijken naar het winnende Microsoft ZCode-DeltaLM-model. Ons startpunt was DeltaLM (DeltaLM: Encoder-Decoder Pre-training voor taalgeneratie en vertaling door het uitbreiden van voorgetrainde meertalige encoders), de nieuwste in de steeds krachtiger wordende reeks van massaal meertalige voorgetrainde taalmodellen van Microsoft.


DeltaLM is een encoder-decoder model, maar in plaats van helemaal opnieuw te trainen, wordt het geïnitialiseerd van een eerder voorgetraind state-of-the-art encoder-only model, met name (TULRv3). Hoewel het initialiseren van de encoder eenvoudig is, is de decoder dat minder, omdat het kruisaandacht toevoegt aan de zelfaandacht van de encoder. DeltaLM lost dit probleem op met een nieuwe interleaved architectuur, waarbij de zelfaandacht en cross-attention elkaar afwisselen tussen lagen, met de zelfaandacht die wordt gebruikt in de oneven lagen en cross-attention die wordt gebruikt in de even lagen. Met deze interleaving komt de decoderstructuur overeen met de encoder en kan deze dus ook op dezelfde manier worden geïnitialiseerd vanuit TULRv3.

DeltaLM wordt aangevuld met ZCode krachtig multitask leren: Multitaskend leren voor meertalige neurale machinevertaling. Onze modellen laten zien dat het combineren van multitasken en meertalig leren de training voor grootschalige voorgetrainde taalmodellen aanzienlijk kan verbeteren. Een dergelijk multitask meertalig leerparadigma maakt gebruik van de inductieve bias en regularisatie van verschillende taken en talen tegelijkertijd om beter te presteren op verschillende downstream-taken. We gebruiken vertaaltaken, denoising auto-encodertaak en vertaalspanne corruptietaak zoals weergegeven in de onderstaande afbeelding.

Het winnen van het enorm meertalige vertaaltraject

Om ons winnende, massaal meertalige vertaalsysteem te bouwen (Meertalige machinevertalingssystemen van Microsoft voor WMT21 Shared Task), zijn we begonnen met zCode-DeltaLM en hebben we een paar trucs toegevoegd.

We passen progressief leren toe, eerst trainen we een model met 24 encoderlagen en 12 decoderlagen, daarna verder trainen met 12 toegevoegde encoderlagen, wat resulteert in een diepe 36-laags encoder. Om alle taalparen te dekken, genereren we dual-pseudo-parallelle gegevens waarbij beide zijden van de parallelle gegevens synthetisch zijn, vertaald door het model uit het Engels. We passen ook iteratieve back-translation toe om synthetische gegevens te genereren. We passen curriculumleren toe, te beginnen met de volledige luidruchtige trainingsgegevens en deze vervolgens te reduceren tot een schone subset. We herwegen de vertaaldoelstelling om parallelle gegevens te bevoordelen boven de back-translation en dual-pseudo-parallelle gegevens. We passen temperatuurbemonstering toe om te balanceren tussen taalparen. Voor elk talenpaar kiezen we, op basis van de ontwikkelset, of we de voorkeur geven aan directe vertaling of pivot-vertaling via het Engels.

Alles bij elkaar wisten we dat we een geweldig enorm meertalig systeem hadden, maar de officiële resultaten op de blinde testset overtroffen onze verwachtingen. We scoorden 2,5 tot 9 BLEU voor de volgende concurrent en 10 tot 21 BLEU-punten voor het baseline M2M-175-model. Op de dev-test vergeleken we met het grotere M2M-615-model, dat we ook met 10 tot 18 punten versloegen.

Beyond Translation: Universal Language Generation

Hoewel we enthousiast zijn over de grote overwinning op WMT 2021, is het nog spannender dat ons ZCode-DeltaLM-model, in tegenstelling tot de andere concurrenten, niet alleen een vertaalmodel is, maar eerder een algemeen voorgetraind encoder-decoder taalmodel, bruikbaar voor allerlei generatietaken buiten vertaling. Dit stelt onze modellen echt in staat om heel goed te presteren op verschillende meertalige natuurlijke taalgeneratietaken.

We bereikten een nieuwe SOTA in veel populaire generatietaken van GEM-benchmark, waaronder Wikilingua (samenvatting), Tekstvereenvoudiging (WikiAuto) en structuur-naar-tekst (WebNLG). Het DeltaLM-ZCode-model presteert veel beter dan veel grotere modellen zoals mT5 XL (3,7B), die ook op veel grotere gegevens is getraind. Dit demonstreerde de efficiëntie en veelzijdigheid van de modellen, wat leidde tot sterke prestaties bij veel taken.

Figuur 2. Prestaties (RL-scores) van ZCode-DeltaLM op de taken Samenvatting en Tekstvereenvoudiging in de GEM-benchmark

Vooruitblikkend

Meertalige machinevertaling heeft een punt bereikt waarop het zeer goed presteert en tweetalige systemen overtreft, zowel op lage als op hoge brontalen. Van Mixture of Experts (MoE) -modellen is aangetoond dat ze zeer geschikt zijn om dergelijke modellen op te schalen, zoals is aangetoond in GShard. We onderzoeken hoe we dergelijke modellen efficiënt kunnen schalen met Mixture of Experts: Schaalbare en efficiënte MoE-training voor multitask meertalige modellen. MoE-modellen met enorme meertalige gegevens en onbewaakte multitask-training bieden ongekende mogelijkheden voor dergelijke modellen om echt universele systemen te bieden die het Microsoft Translator-team verder in staat kunnen stellen om taalbarrières over de hele wereld te elimineren en een verscheidenheid aan natuurlijke taalgeneratietaken te ondersteunen.

Dankbetuigingen

We willen Francisco Guzman en zijn team bedanken die de enorm meertalige FLORES-testset hebben verzameld en deze WMT-track met zo'n grootschalige evaluatie hebben georganiseerd.