Mehrsprachige Übersetzung in großem Maßstab: 10000 Sprachpaare und mehr
Microsoft ist auf der Suche nach KI in großem Maßstab mit hohem Ehrgeiz, die nächste Generation von KI-Erlebnissen zu ermöglichen. Der Microsoft Translator ZCode Team arbeitet zusammen mit Microsoft Project Turing und Microsoft Research Asia, um den Sprach- und Mehrsprachigensupport im Mittelpunkt dieser Initiative voranzutreiben. Wir gehen mit mehrsprachigen Modellen weiter an die Grenzen, um verschiedene Sprachszenarien bei Microsoft zu unterstützen. Letzten Sommer haben wir unseren groß angelegten Mehrsprachige Mischung aus Experten Modell mit DeepSpeed die einzelne großmaßstäbliche zweisprachige Modelle übertreffen können. Vor kurzem wurde das neueste Turing-Modell der universellen Sprachdarstellung (T-ULRv5), ein von Microsoft erstelltes Modell ist wieder einmal Stand der Technik und an der Spitze der Google Öffentliche XTREME-Bestenliste damals. In jüngerer Zeit kündigte Microsoft die größte Megatron-Turing NLG 530B Parametermodell.
Die jährliche Konferenz für maschinelle Übersetzung (auch bekannt als WMT 2021) endete letzte Woche im schönen Punta Cana, Dominikanische Republik. WMT bringt Forscher aus dem gesamten Bereich der maschinellen Übersetzung, sowohl aus der Industrie als auch aus der Wissenschaft, zusammen, um an einer Reihe gemeinsamer Aufgaben teilzunehmen, von denen jede einen Maßstab in einem wichtigen Bereich der maschinellen Übersetzung definiert, um das Feld in neue Grenzen zu bringen.
Das Microsoft Translator ZCode-Team nahm in Zusammenarbeit mit dem Turing-Team und Microsoft Research Asia am Track "Large-scale Multilingual Translation" teil, der aus einer vollständigen Aufgabe der Übersetzung zwischen allen 10.000 Richtungen in 101 Sprachen und zwei kleinen Aufgaben bestand: Eine konzentrierte sich auf 5 mittel- und südeuropäische Sprachen und eine auf 5 südostasiatische Sprachen. Das Microsoft ZCode-DeltaLM-Modell gewann alle drei Aufgaben mit großem Vorsprung, einschließlich eines unglaublichen Gewinns von mehr als 10 Punkten gegenüber dem M2M100-Modell bei der großen Aufgabe, die auf massiven 10.000 Sprachpaaren ausgewertet wurde. (Ergebnisse der WMT 2021 Shared Task on Large-Scale Multilingual Machine Translation, Wenzek et al., WMT 2021).
Abbildung 1: Offizielle Ergebnisse (BLEU-Scores) zur Gesamtaufgabe und zur kleinen Aufgabe1 bei der gemeinsamen Aufgabe WMT 2021 Large Scale Multilingual Translation
Der ZCode-DeltaLM-Ansatz
Werfen wir in diesem Blogbeitrag einen Blick unter die Haube auf das siegreiche Microsoft ZCode-DeltaLM-Modell. Unser Ausgangspunkt war DeltaLM (DeltaLM: Encoder-Decoder-Vorschulung zur Sprachgenerierung und Übersetzung durch Erweiterung vortrainierter mehrsprachiger Encoder), das neueste in der immer leistungsfähigeren Reihe von massiv mehrsprachigen vortrainierten Sprachmodellen von Microsoft.
DeltaLM ist ein Encoder-Decoder-Modell, aber anstatt von Grund auf neu zu trainieren, wird es aus einem zuvor vortrainierten, hochmodernen Encoder-Only-Modell initialisiert, insbesondere (TULRv3). Während das Initialisieren des Encoders einfach ist, ist der Decoder weniger einfach, da er der Selbstaufmerksamkeit des Encoders Queraufmerksamkeit hinzufügt. DeltaLM löst dieses Problem mit einer neuartigen verschachtelten Architektur, bei der die Selbstaufmerksamkeit und die Kreuzaufmerksamkeit zwischen den Schichten wechseln, wobei die Selbstaufmerksamkeit in den ungeraden Schichten und die Queraufmerksamkeit in den geraden Schichten verwendet wird. Mit dieser Verschachtelung stimmt die Decoderstruktur mit dem Encoder überein und kann daher auch auf die gleiche Weise von TULRv3 aus initialisiert werden.
DeltaLM wird durch das leistungsstarke Multitasking-Lernen von ZCode erweitert: Multitasking-Lernen für mehrsprachige neuronale maschinelle Übersetzung. Unsere Modelle zeigen, dass die Kombination von Multitasking und mehrsprachigem Lernen das Training für groß angelegte vortrainierte Sprachmodelle erheblich verbessern kann. Ein solches mehrsprachiges Multitasking-Lernparadigma nutzt die induktive Verzerrung und Regularisierung von mehreren Aufgaben und Sprachen gleichzeitig, um bei verschiedenen nachgelagerten Aufgaben eine bessere Leistung zu erbringen. Wir verwenden übersetzungsaufgabe, rauschende automatische Encoder-Aufgabe und Übersetzungsbereich-Korruptionsaufgabe, wie in der folgenden Abbildung gezeigt.
Gewinn des massiv mehrsprachigen Übersetzungstracks
Aufbau unseres erfolgreichen, massiv mehrsprachigen Übersetzungssystems (Mehrsprachige maschinelle Übersetzungssysteme von Microsoft für WMT21 Shared Task), haben wir mit zCode-DeltaLM begonnen und ein paar Tricks hinzugefügt.
Wir wenden progressives Lernen an, trainieren zuerst ein Modell mit 24 Encoderschichten und 12 Decoderschichten, dann setzen wir das Training mit 12 hinzugefügten Encoderschichten fort, was zu einem tiefen 36-Schicht-Encoder führt. Um alle Sprachpaare abzudecken, generieren wir dual-pseudoparallele Daten, bei denen beide Seiten der parallelen Daten synthetisch sind, übersetzt durch das Modell aus dem Englischen. Wir wenden auch eine iterative Rückübersetzung an, um synthetische Daten zu generieren. Wir wenden das Lehrplanlernen an, beginnend mit den gesamten verrauschten Trainingsdaten, und reduzieren es dann auf eine saubere Teilmenge. Wir gewichten das Übersetzungsziel neu, um parallele Daten gegenüber der Rückübersetzung und dual-pseudoparallelen Daten zu bevorzugen. Wir wenden Temperaturabtastung an, um über Sprachpaare hinweg auszugleichen. Für jedes Sprachpaar wählen wir basierend auf der Entwicklergruppe aus, ob wir eine direkte Übersetzung oder eine Pivot-Übersetzung durch Englisch bevorzugen.
Alles in allem wussten wir, dass wir ein erstaunliches, massiv mehrsprachiges System hatten, aber die offiziellen Ergebnisse des Blindentest-Sets übertrafen unsere Erwartungen. Wir erzielten 2,5 bis 9 BLU vor dem nächsten Wettbewerber und 10 bis 21 BLEU-Punkte vor dem Basismodell M2M-175. Im Dev-Test haben wir uns mit dem größeren M2M-615-Modell verglichen, das wir ebenfalls um 10 bis 18 Punkte geschlagen haben.
Beyond Translation: Universelle Sprachgenerierung
Während wir uns über den großen Gewinn auf der WMT 2021 freuen, ist es noch spannender, dass unser ZCode-DeltaLM-Modell im Gegensatz zu den anderen Mitbewerbern nicht nur ein Übersetzungsmodell ist, sondern ein allgemeines vortrainiertes Encoder-Decoder-Sprachmodell, das für alle Arten von Generierungsaufgaben über die Übersetzung hinaus verwendet werden kann. Dies ermöglicht es unseren Modellen, bei verschiedenen mehrsprachigen Aufgaben zur Generierung natürlicher Sprache sehr gut abzuschneiden.
Wir haben eine neue SOTA in vielen populären Generationenaufgaben von GEM-Benchmark, einschließlich Wikilingua (Zusammenfassung), Textvereinfachung (WikiAuto) und Struktur-zu-Text (WebNLG). Das DeltaLM-ZCode-Modell übertrifft bei weitem viel größere Modelle wie mT5 XL (3,7B), das auch auf viel größeren Daten trainiert wird. Dies zeigte die Effizienz und Vielseitigkeit der Modelle, was zu einer starken Leistung bei vielen Aufgaben führte.
Abbildung 2. Leistung (RL-Scores) von ZCode-DeltaLM bei den Aufgaben Zusammenfassung und Textvereinfachung im GEM-Benchmark
Blick in die Zukunft
Multilingual Machine Translation hat einen Punkt erreicht, an dem es sehr gut funktioniert und zweisprachige Systeme sowohl in Sprachen mit geringen als auch mit hohem Ressourcengehalt übertrifft. Es hat sich gezeigt, dass die Modelle der Mischung aus Experten (MoE) sehr gut geeignet sind, um solche Modelle zu skalieren, wie in GShard gezeigt wurde. Wir untersuchen, wie solche Modelle mit Mixture of Experts effizient skaliert werden können: Skalierbares und effizientes MoE-Training für mehrsprachige Multitasking-Modelle. MoE-Modelle mit massiven mehrsprachigen Daten und unbeaufsichtigtem Multitasking-Training bieten für solche Modelle eine beispiellose Möglichkeit, wirklich universelle Systeme bereitzustellen, die es dem Microsoft Translator-Team ermöglichen, Sprachbarrieren auf der ganzen Welt zu beseitigen und eine Vielzahl von Aufgaben zur Generierung natürlicher Sprache zu unterstützen.
Bestätigungen
Wir möchten Francisco Guzman und seinem Team danken, die das massiv mehrsprachige FLORES-Testset gesammelt und diesen WMT-Track mit einer so groß angelegten Auswertung organisiert haben.