İçeriğe özkan
Translator
Bu sayfa, Microsoft Translator'ın makine çeviri hizmeti tarafından otomatik olarak çevrilmiştir. Daha fazla bilgi edinin

Microsoft Translator blog

Ölçekte çok dilli çeviri: 10000 dil çifti ve ötesi

Microsoft bir arayış içinde Ölçekte Yapay Zeka yeni nesil yapay zeka deneyimlerini mümkün kılmak için yüksek hırsla. Microsoft Çeviri Aracısı ZCode ekibi ile birlikte çalışıyor Microsoft Project Turing ve Microsoft Research Asia, bu girişimin özünde dil ve çok dilli desteği ilerletmek için. Microsoft genelinde çeşitli dil senaryolarını desteklemek için Çok Dilde modellerle sınırları zorlamaya devam ediyoruz. Geçen yaz, büyük ölçeğimizi açıkladık. Uzmanın Çok Dilli Karışımı modeliyle DeepSpeed bireysel büyük ölçekli iki dilli modelden daha iyi performans gösteren. Son zamanlarda, en son Turing evrensel dil temsil modeli (T-ULRv5), Microsoft tarafından oluşturulan bir model bir kez daha son teknoloji ürünüdür ve Google'ın en üstündedir XTREME genel skor tablosu O zaman. Daha yakın zamanda, Microsoft en büyük Megatron-Turing NLG 530B parametre modeli.

Yıllık Makine Çevirisi Konferansı (diğer adıyla WMT 2021) geçen hafta Güzel Punta Cana, Dominik Cumhuriyeti'nde sona erdi. WMT, hem endüstri hem de akademi olmak üzere tüm Makine Çevirisi alanındaki araştırmacıları bir araya getirerek, her biri alanı yeni sınırlara itmek için makine çevirisinin önemli bir alanında bir ölçüt tanımlayan bir dizi paylaşılan göreve katılıyor.

Turing ekibi ve Microsoft Research Asia ile birlikte çalışan Microsoft Translator ZCode ekibi, 101 dilde 10.000 yönün tümü arasında çevirinin tam bir görevinden oluşan "Büyük Ölçekli Çok Dilde Çeviri" parçasında ve iki Küçük görevde yarıştı: Biri 5 orta ve güney Avrupa diline, diğeri de 5 güneydoğu Asya diline odaklandı. Microsoft ZCode-DeltaLM modeli, 10.000 dil çifti üzerinde değerlendirilen büyük görevde M2M100 modeline göre inanılmaz bir 10+ puan kazanma da dahil olmak üzere üç görevi de büyük farklarla kazandı. (Büyük Ölçekli Çok Dilde Makine Çevirisinde WMT 2021 Paylaşılan Görevinin Bulguları, Wenzek ve ark, WMT 2021).

Şekil 1: WMT 2021 Büyük Ölçekli Çok Dilde Çeviri paylaşılan görevinde Tam Görev ve Küçük Görev1'deki Resmi Sonuçlar (BLEU puanları)

ZCode-DeltaLM yaklaşımı

Bu blog yazısında, kazanan Microsoft ZCode-DeltaLM modeline bir göz atalım. Başlangıç noktamız DeltaLM (DeltaLM: Önceden Eğitilmiş Çok Dilde Kodlayıcıları Artırarak Dil Üretimi ve Çevirisi için Kodlayıcı-Kod Çözücü Ön Eğitimi), Microsoft'un giderek daha güçlü hale gelen çok dilli önceden eğitilmiş dil modelleri serisinin en sonuncusu.


DeltaLM bir kodlayıcı kod çözücü modelidir, ancak sıfırdan eğitim yerine, önceden eğitilmiş yalnızca son teknoloji kodlayıcı modelinden başlatılır, özellikle (TULRv3). Kodlayıcıyı başlatmak basit olsa da, kodlayıcının kendi dikkatine çapraz dikkat kattığından kod çözücü daha azdır. DeltaLM, bu sorunu, öz ilginin ve çapraz dikkatin katmanlar arasında geçiş yaptığı, tek katmanlarda kullanılan öz ilgi ve eşit katmanlarda kullanılan çapraz dikkat ile yeni bir ara mimari ile çözer. Bu aralama ile kod çözücü yapısı kodlayıcıyla eşleşir ve böylece TULRv3'ten de aynı şekilde başlatılabilir.

DeltaLM, ZCode güçlü çoklu görev öğrenmesi ile güçlendirilir: Çok Dilli Sinir Makinesi Çevirisi için Çok Görevli Öğrenme. Modellerimiz, çok görevli ve çok dilli öğrenmeyi birleştirmenin, büyük ölçekli önceden eğitilmiş dil modelleri için eğitimi önemli ölçüde iyileştirebileceğini göstermektedir. Bu tür çok dilli öğrenme paradigması, çeşitli aşağı akış görevlerinde daha iyi performans gerçekleştirmek için aynı anda çeşitli görevlerden ve dillerden endüktif önyargı ve düzenlileştirmeden yararlanmaktadır. Aşağıdaki şekilde gösterildiği gibi çeviri görevi, denoising otomatik kodlayıcı görevi ve çeviri yayılma alanı bozulması görevi kullanıyoruz.

Çok dilli çeviri parçasını kazanma

Kazanan çok dilli çeviri sistemimizi inşa etmek için (WMT21 Paylaşılan Görevi için Microsoft'tan Çok Dilde Makine Çeviri Sistemleri), zCode-DeltaLM ile başladık ve birkaç püf noktası ekledik.

Aşamalı öğrenme uyguluyoruz, önce 24 kodlayıcı katmanı ve 12 kod çözücü katmanı olan bir modeli eğitiyoruz, ardından 12 ek kodlayıcı katmanıyla eğitime devam ediyoruz ve bu da derin bir 36 katman kodlayıcı ile sonuç veriyor. Tüm dil çiftlerini kapsayacak şekilde, paralel verilerin her iki tarafının da sentetik olduğu, model tarafından İngilizce'den çevrilen çift sözde paralel veriler oluştururuz. Sentetik veri oluşturmak için yinelemeli geri çeviri de uyguluyoruz. Tüm gürültülü eğitim verilerinden başlayarak, daha sonra temiz bir alt kümeye indirgeyen müfredat öğrenimi uyguluyoruz. Çeviri hedefini, paralel verileri geri çeviri ve çift sözde paralel veriye tercih etmek için yeniden ağırlıklandırmalıyız. Dil çiftleri arasında denge sağlamak için sıcaklık örneklemesi uyguluyoruz. Her dil çifti için, doğrudan çeviriyi mi yoksa İngilizce üzerinden pivot çeviriyi mi tercih edeceğimizi geliştirme kümesine göre seçiyoruz.

Hepsini bir araya getirerek, inanılmaz derecede çok dilli bir sistemimiz olduğunu biliyorduk, ancak kör test setinin resmi sonuçları beklentilerimizi aştı. Bir sonraki rakibin 2.5 ila 9 BLEU ve temel M2M-175 modelinin 10 ila 21 BLEU puan önünde puan aldık. Geliştirme testinde, 10 ila 18 puan yendiğimiz daha büyük M2M-615 modeliyle karşılaştırdık.

Çevirinin Ötesinde: Evrensel Dil Üretimi

WMT 2021'deki büyük zafer için heyecanlı olsak da, daha da heyecan verici olan şey, diğer rakiplerin aksine, ZCode-DeltaLM modelimizin sadece bir çeviri modeli değil, çevirinin ötesinde her türlü nesil görev için kullanılabilir genel bir önceden eğitilmiş kodlayıcı-kod çözücü dil modeli olmasıdır. Bu, modellerimizin çeşitli çok dilli doğal dil oluşturma görevlerinde oldukça iyi performans göstermelerini sağlar.

Birçok popüler nesil görevinde yeni bir SOTA'ya ulaştık. GEM Kıyaslaması, Wikilingua (özetleme), Metin basitleştirme (WikiAuto) ve metne yapı (WebNLG) dahil. DeltaLM-ZCode modeli, aynı zamanda çok daha büyük veriler üzerinde eğitilen mT5 XL (3.7B) gibi çok daha büyük modellerden daha iyi performans gösterir. Bu, birçok görevde güçlü performansa yol açan modellerin verimliliğini ve çok yönlülüğünü gösterdi.

Şekil 2. GEM kıyaslamasındaki Özetleme ve Metin Basitleştirme görevlerinde ZCode-DeltaLM performansı (RL puanları)

İleriye Bakmak

Çok Dilli Makine Çevirisi, hem düşük hem de yüksek kaynak dillerinde iki dilli sistemleri aşarak çok iyi performans gösterdiği bir noktaya geldi. Uzmanlar (MoE) modellerinin karışımının, GShard'da gösterildiği gibi bu tür modelleri ölçeklendirmek için çok uygun olduğu gösterilmiştir. Bu tür modellerin Uzmanların Karışımı ile nasıl verimli bir şekilde ölçeklendirebileceğimizi araştırıyoruz: Çok Dilli Modeller için Ölçeklenebilir ve Verimli MoE Eğitimi. Çok dilli büyük verilere ve denetimsiz çoklu görev eğitimine sahip MOE modelleri, bu tür modellerin Microsoft Translator ekibinin dünyadaki dil engellerini ortadan kaldırmasını ve çeşitli doğal dil oluşturma görevlerini desteklemesini sağlayabilecek gerçekten evrensel sistemler sağlaması için kesin olmayan bir fırsat sunar.

Teşekkür

Francisco Guzman'a ve ekibine, çok dilli FLORES test setini toplayan ve bu WMT pistini bu kadar büyük ölçekli bir değerlendirmeyle düzenleyen ekibine teşekkür ederiz.