メイン コンテンツへスキップ
Translator
このページは、マイクロソフト翻訳者の機械翻訳サービスによって自動的に翻訳されました。 詳細情報

マイクロソフト翻訳ブログ

スケール感のある多言語翻訳。10000言語ペア以上

マイクロソフトが探求しているのは AI at Scale 次世代のAI体験を可能にするという高い志を持ってマイクロソフトの翻訳機 ZCode のチームが協力しています。 Microsoft Project Turing と Microsoft Research Asia の協力を得て、このイニシアチブの中核となる言語および多言語サポートを推進しています。私たちは、マイクロソフト全体でさまざまな言語のシナリオをサポートするために、多言語モデルのフロンティアを開拓し続けています。昨年の夏、私たちは大規模な 専門家の多言語混合物 を搭載したモデル。 ディープスピード は、個々の大規模な二言語モデルを凌駕することができます。最近では、最新のTuringユニバーサル言語表現モデル(T-ULRv5)では、マイクロソフトが作成したモデルが再び最新の状態となり、Googleのトップにある XTREMEの公開リーダーボード その時の様子です。最近では、マイクロソフトが最大の メガトロン-チューリング NLG 530B パラメーターモデルです。

先週、ドミニカ共和国の美しいプンタカナで開催された年次機械翻訳会議(通称:WMT2021)が終了しました。WMTでは、機械翻訳分野の研究者が産学を問わず一堂に会し、一連の共有タスクに参加します。それぞれのタスクは、機械翻訳の重要な分野におけるベンチマークを定義し、機械翻訳分野を新たなフロンティアへと押し上げるものです。

Microsoft Translator ZCodeチームは、Turingチーム、Microsoft Research Asiaと共同で、「Large-scale Multilingual Translation」トラックに出場しました。このトラックは、101言語の10,000方向すべてを翻訳するFullタスクと、2つのSmallタスクで構成されています。1つは中央・南ヨーロッパの5言語、もう1つは東南アジアの5言語に焦点を当てたものです。Microsoft ZCode-DeltaLMモデルは、3つのタスクすべてに大差をつけて勝利し、1万言語ペアの大タスクでは、M2M100モデルに10ポイント以上の大差をつけました。(WMT 2021 Shared Task on Large-Scale Multilingual Machine Translationの成果, Wenzek et al, WMT 2021)。)

図1:「WMT 2021 大規模多言語翻訳共有タスク」におけるフルタスクとスモールタスク1の公式結果(BLEUスコア)。

ZCode-DeltaLMアプローチ

今回のブログ記事では、マイクロソフトのZCode-DeltaLMの受賞モデルのボンネットの中を見てみましょう。私たちの出発点はDeltaLM (DeltaLM: 言語生成および翻訳のためのエンコーダ-デコーダの事前学習、事前学習された多言語エンコーダの増強)は、マイクロソフトが開発した大規模な多言語対応の学習済み言語モデルの中で、ますます強力になっている最新のモデルです。


DeltaLMはエンコーダ-デコーダモデルであるが、ゼロから学習するのではなく、事前に学習した最先端のエンコーダのみのモデルから初期化される。TULRV3).エンコーダの初期化は簡単だが、デコーダの初期化は、エンコーダのセルフアテンションにクロスアテンションを追加するため、それほど簡単ではない。DeltaLMはこの問題を解決するために、インターリーブ構造を採用している。このインターリーブ構造では、セルフアテンションとクロスアテンションがレイヤー間で交互に繰り返され、奇数レイヤーではセルフアテンションが、偶数レイヤーではクロスアテンションが使用される。このインターリーブにより、デコーダの構造はエンコーダと一致するため、TULRv3から同じように初期化することも可能です。

DeltaLMは、ZCodeの強力なマルチタスク学習によって強化されています。 多言語ニューラル機械翻訳のためのマルチタスク学習.我々のモデルは、マルチタスクと多言語学習を組み合わせることで、大規模な事前学習済み言語モデルの学習を大幅に改善できることを示している。このようなマルチタスク・多言語学習のパラダイムは、複数のタスクと言語から同時に得られる帰納的バイアスと正則化を活用して、様々な下流のタスクでより良いパフォーマンスを発揮する。下図に示すように、翻訳タスク、ノイズ除去オートエンコーダタスク、翻訳スパン破損タスクを使用しています。

大規模な多言語翻訳トラックを勝ち取る

受賞した多言語翻訳システムを構築するために(マイクロソフトが提供する多言語機械翻訳システムをWMT21共有タスクに採用)のために、zCode-DeltaLMから始めて、いくつかのトリックを加えました。

まず、24のエンコーダー層と12のデコーダー層を持つモデルを学習し、その後、12のエンコーダー層を追加して学習を続けることで、36層の深いエンコーダーを実現するというプログレッシブ学習を採用しています。すべての言語ペアをカバーするために、英語からモデルによって翻訳された合成語をパラレルデータの両側に配置したデュアル疑似パラレルデータを生成します。また、合成データを生成するために、反復的な逆翻訳を行っています。カリキュラム学習では、ノイズの多い学習データ全体から始めて、クリーンなサブセットに縮小します。翻訳目的の重み付けを変更し、逆翻訳やデュアル疑似パラレルデータよりもパラレルデータを優先します。言語ペア間のバランスをとるために、温度サンプリングを行います。各言語ペアにおいて、直接翻訳と英語を介したピボット翻訳のどちらを優先するかをdevセットに基づいて選択します。

これらを総合すると、私たちは素晴らしい多言語システムを手に入れたことになりますが、ブラインドテストセットでの公式結果は私たちの期待を上回るものでした。ブラインドテストでは、次の競合他社に2.5~9BLEUの差をつけ、ベースラインのM2M-175モデルには10~21BLEUの差をつけました。開発テストでは、より大型の「M2M-615」と比較し、こちらも10~18ポイントの差をつけました。

翻訳を超えて。普遍的な言語の生成

WMT 2021での大きな勝利に興奮していますが、さらに興奮しているのは、他の競合他社とは異なり、私たちのZCode-DeltaLMモデルが単なる翻訳モデルではなく、一般的なプリトレインされたエンコーダ・デコーダ言語モデルであり、翻訳以外のあらゆる生成タスクに使用できることです。これにより、私たちのモデルは、さまざまな多言語の自然言語生成タスクで非常に優れた性能を発揮することができます。

の人気の高い生成タスクの多くで、新たなSOTAに到達しました。 GEMベンチマークその中には、Wikilingua(要約)、Text simplification(WikiAuto)、Structure-to-Text(WebNLG)が含まれています。DeltaLM-ZCodeモデルは、mT5 XL(3.7B)のような大規模なデータで学習されたモデルを広く凌駕しました。これにより、DeltaLM-ZCodeモデルの効率性と汎用性が実証され、多くのタスクで強力なパフォーマンスを発揮することができました。

図2.GEMベンチマークの「Summarization」および「Text Simplification」タスクにおけるZCode-DeltaLMの性能(RLスコア)。

今後の展開

多言語機械翻訳は、低リソース言語と高リソース言語の両方において、対訳システムを上回る非常に優れた性能を発揮する段階に達しています。このようなモデルをスケールアップするためには、エキスパート混合モデル(Mixture of Experts: MoE)が非常に適していることが、GShardで示されています。本研究では、Mixture of Expertsを用いて、このようなモデルを効率的に拡張する方法を探ります。 マルチタスク多言語モデルのためのスケーラブルで効率的なMoEトレーニング.膨大な多言語データと教師なしのマルチタスクトレーニングを備えたMoEモデルは、Microsoft Translatorチームが世界中で言語の壁をなくすことを可能にし、さまざまな自然言語生成タスクをサポートする真のユニバーサルシステムを提供する、かつてない機会を提供します。

謝辞

大規模な多言語のFLORESテストセットを収集し、このような大規模な評価を行うWMTトラックを企画したFrancisco Guzman氏と彼のチームに感謝します。