Lompati ke konten utama
Penerjemah
Halaman ini telah diterjemahkan secara otomatis oleh layanan penerjemahan mesin Microsoft Translator. Pelajari lebih lanjut

Microsoft Translator blog

Terjemahan multibahasa dalam skala besar: 10.000 pasangan bahasa dan seterusnya

Microsoft sedang dalam pencarian untuk AI pada Skala dengan ambisi tinggi untuk memungkinkan generasi berikutnya dari pengalaman AI. Penerjemah Microsoft ZCode Tim bekerja sama dengan Microsoft Project Turing dan Microsoft Research Asia untuk memajukan bahasa dan dukungan multibahasa sebagai inti dari inisiatif ini. Kami terus mendorong batas dengan model Multibahasa untuk mendukung berbagai skenario bahasa di seluruh Microsoft. Musim panas lalu, kami mengumumkan skala besar kami Campuran Ahli Multi-Lingual Model dengan DeepSpeed yang dapat mengungguli model bi-lingual skala besar individu. Baru-baru ini, model representasi bahasa universal Turing terbaru (T-ULRv5), model yang dibuat Microsoft sekali lagi adalah keadaan seni dan di bagian atas Google. Papan peringkat publik XTREME pada saat itu. Baru-baru ini, Microsoft mengumumkan yang terbesar. Megatron-Turing NLG 530B parameter model.

Konferensi tahunan tentang Terjemahan Mesin (alias WMT 2021) berakhir minggu lalu di Punta Cana yang indah, Republik Dominika. WMT menyatukan para peneliti dari seluruh bidang Terjemahan Mesin, baik industri maupun akademisi, untuk berpartisipasi dalam serangkaian tugas bersama, masing-masing mendefinisikan tolok ukur di bidang penting terjemahan mesin untuk mendorong lapangan ke perbatasan baru.

Tim Microsoft Translator ZCode, bekerja sama dengan tim Turing dan Microsoft Research Asia, berkompetisi dalam lagu "Large-scale Multilingual Translation", yang terdiri dari Tugas Penuh menerjemahkan antara semua 10.000 arah di 101 bahasa, dan dua tugas kecil: Satu berfokus pada 5 bahasa Eropa tengah dan selatan, dan satu lawan 5 bahasa Asia Tenggara. Model Microsoft ZCode-DeltaLM memenangkan ketiga tugas dengan margin besar, termasuk keuntungan 10+ poin yang luar biasa atas model M2M100 dalam tugas besar yang dievaluasi pada 10.000 pasangan bahasa besar. (Temuan Tugas Bersama WMT 2021 tentang Terjemahan Mesin Multibahasa Skala Besar, Wenzek et al, WMT 2021).

Gambar 1: Hasil Resmi (skor BLEU) pada Tugas Penuh dan Tugas Kecil di WMT 2021 Terjemahan Multibahasa Skala Besar berbagi tugas bersama

Pendekatan ZCode-DeltaLM

Dalam posting blog ini, mari kita lihat di bawah tenda pada model Microsoft ZCode-DeltaLM yang menang. Titik awal kami adalah DeltaLM (DeltaLM: Encoder-Decoder Pra-pelatihan untuk Generasi Bahasa dan Terjemahan dengan Menambah Encoders Multibahasa Pra-Pelatihan), yang terbaru dalam seri yang semakin kuat dari model bahasa pra-pelatihan multibahasa besar-besaran dari Microsoft.


DeltaLM adalah model encoder-decoder, tetapi alih-alih pelatihan dari awal, itu dirinisial dari model encoder-only yang sebelumnya sudah dilatih sebelumnya, khususnya (TULRv3). Sementara menginisialisasi encoder mudah, decoder kurang begitu, karena menambahkan perhatian silang pada perhatian diri encoder. DeltaLM memecahkan masalah ini dengan arsitektur interleaved baru, di mana perhatian diri dan alternatif cross-attention antara lapisan, dengan perhatian diri yang digunakan dalam lapisan aneh dan cross-attention yang digunakan dalam lapisan genap. Dengan interleaving ini, struktur decoder cocok dengan encoder, sehingga juga dapat diinisialisasi dengan cara yang sama dari TULRv3.

DeltaLM ditambah dengan pembelajaran multitask ZCode yang kuat: Pembelajaran Multi-tugas untuk Terjemahan Mesin Saraf Multibahasa. Model kami menunjukkan bahwa menggabungkan pembelajaran multitask dan multibahasa dapat secara signifikan meningkatkan pelatihan untuk model bahasa pra terlatih skala besar. Paradigma pembelajaran multibahasa multitask semacam itu memanfaatkan bias induktif dan regularisasi dari beberapa tugas dan bahasa secara bersamaan untuk berkinerja lebih baik pada berbagai tugas hilir. Kami menggunakan tugas penerjemahan, tugas encoder otomatis denoising dan tugas korupsi rentang terjemahan seperti yang ditunjukkan pada gambar di bawah ini.

Memenangkan trek terjemahan multibahasa besar-besaran

Untuk membangun sistem terjemahan multibahasa besar-besaran yang menang (Sistem Terjemahan Mesin Multibahasa dari Microsoft untuk Tugas Bersama WMT21), kami mulai dengan zCode-DeltaLM, dan menambahkan beberapa trik.

Kami menerapkan pembelajaran progresif, pertama melatih model dengan 24 lapisan encoder dan 12 lapisan decoder, kemudian melanjutkan pelatihan dengan 12 lapisan encoder tambahan, menghasilkan encoder 36 lapisan yang dalam. Untuk mencakup semua pasangan bahasa, kami menghasilkan data dual-pseudo-parallel di mana kedua sisi data paralel bersifat sintetis, diterjemahkan oleh model dari bahasa Inggris. Kami juga menerapkan terjemahan balik berulang untuk menghasilkan data sintetis. Kami menerapkan pembelajaran kurikulum, dimulai dengan seluruh data pelatihan yang bising, kemudian menguranginya menjadi subset yang bersih. Kami menimbang ulang tujuan penerjemahan untuk mendukung data paralel melalui data back-translation dan dual-pseudo-parallel. Kami menerapkan pengambilan sampel suhu untuk menyeimbangkan di seluruh pasangan bahasa. Untuk setiap pasangan bahasa, kami memilih, berdasarkan dev set, apakah akan lebih memilih terjemahan langsung atau terjemahan pivot melalui bahasa Inggris.

Menyatukan semuanya, kami tahu kami memiliki sistem multibahasa besar yang luar biasa, tetapi hasil resmi pada tes buta melebihi harapan kami. Kami mencetak 2,5 hingga 9 BLEU di depan pesaing berikutnya, dan 10 hingga 21 poin BLEU di depan model dasar M2M-175. Pada tes dev kami membandingkan dengan model M2M-615 yang lebih besar, yang juga kami kalahkan dengan 10 hingga 18 poin.

Beyond Translation: Generasi Bahasa Universal

Meskipun kami senang dengan kemenangan besar di WMT 2021, yang lebih menarik adalah bahwa tidak seperti pesaing lainnya, model ZCode-DeltaLM kami bukan hanya model terjemahan, melainkan model bahasa encoder-decoder yang sudah dilatih secara umum, dapat digunakan untuk semua jenis tugas generasi di luar terjemahan. Ini benar-benar memungkinkan model kami untuk melakukan cukup baik pada berbagai tugas generasi bahasa alami multibahasa.

Kami mencapai SOTA baru dalam banyak tugas generasi populer dari Patokan PERMATA, termasuk Wikilingua (ringkasan), penyederhanaan Teks (WikiAuto), dan struktur-ke-teks (WebNLG). Model DeltaLM-ZCode secara luas mengungguli model yang jauh lebih besar seperti mT5 XL (3.7B) yang juga dilatih pada data yang jauh lebih besar juga. Ini menunjukkan efisiensi dan fleksibilitas model yang mengarah ke kinerja yang kuat di banyak tugas.

Gambar 2. Kinerja (skor RL) ZCode-DeltaLM pada tugas Ringkasan dan Penyederhanaan Teks dalam tolok ukur GEM

Melihat ke depan

Terjemahan Mesin Multibahasa telah mencapai titik di mana ia berkinerja sangat baik, melebihi sistem bilingual, baik pada bahasa sumber daya rendah dan tinggi. Model Mix of Experts (MoE) telah terbukti sangat cocok untuk meningkatkan model seperti yang telah ditunjukkan pada GShard. Kami mengeksplorasi cara mengukur model tersebut secara efisien dengan Campuran Ahli: Pelatihan MoE yang Terukur dan Efisien untuk Model Multitask Multibahasa. Model MoE dengan data multibahasa besar dan pelatihan multitask tanpa pengawasan menghadirkan kesempatan tak siap bagi model tersebut untuk menyediakan sistem yang benar-benar universal yang selanjutnya dapat memungkinkan tim Penerjemah Microsoft untuk menghilangkan hambatan bahasa di seluruh dunia, serta mendukung berbagai tugas generasi bahasa alami.

Pengakuan

Kami ingin mengakui dan berterima kasih kepada Francisco Guzman &timnya yang mengumpulkan set uji FLORES multibahasa besar-besaran dan mengatur trek WMT ini dengan evaluasi skala besar seperti itu.