İçeriğe özkan
Translator
Bu sayfa, Microsoft Translator'ın makine çeviri hizmeti tarafından otomatik olarak çevrilmiştir. Daha fazla bilgi edinin

Microsoft Translator blog

Istatistiksel makine çevirisi-konuk blog (ek kağıt ile güncellendi)

Will Lewis, dil kalitesi ve veri edinme üzerinde çalışan Microsoft Translator ekibi üzerinde bir program yöneticisidir.  Bugünün konuk blog motoru nasıl çalıştığını yüksek seviyeli bir açıklama:  

Birçok bildiğiniz gibi, başlık altında Microsoft Translator bir Istatistiksel makine çevirisi (SMT) motoru tarafından desteklenmektedir.  Istatistiksel sistemler, bir dilden diğerine "kurallar" haritalama sözcükleri ve cümleleri el kodlu olmaktan ziyade sistem tarafından öğrenilen kural tabanlı olanlardan farklıdır.  Bir SMT eğitimi, büyük miktarda paralel eğitim verisi (Umarım iyi kalite ve heterojen kaynaklardan) ve bu veriler üzerinde motoru eğitmesini gerektirir.  (Paralel olarak, bir dil için içeriğin diğer içerik ile aynı olduğu bir veri kaynağı anlamına gelir.)  Motor bir dilde kelimeler ve ifadeler arasındaki yazışmalar öğrenir ve başka, genellikle giriş boyunca aynı kelime ve ifadeler tekrarlanan oluşumları ile güçlendirilmiştir.  Örneğin, eğitim Ingilizce-Alman sistemi diyelim ki, motor ifade görürse Tüm hakları saklıdır Ingilizce tarafında ve ayrıca uyarılar Ali bulut Alman tarafında, bu iki tümcecikleri hizalamak ve bu hizalama için bazı olasılık atayabilirsiniz.  Eğitim verilerinde kaynak ve hedef tümceciklerin tekrarlanan oluşumları yalnızca bu hizalamayı güçlendirecektir.

Genellikle, bir dil çifti için paralel verilere sahip olmak, her iki yönde de motor eğitebiliriz anlamına gelir (yani, hem Ingilizce-Almanca hem de Almanca-Ingilizce sistemleri aynı giriş cümleleri üzerinde eğitilebilir).  Bazı sorularınız neden biz Ispanyolca-Ingilizce piyasaya önce biz Ingilizce-Ispanyolca sistemi yayımladı neden ilgili vardı.  Gerçekten iki nedeni vardı.  Ilk olarak, Ingilizce-Ispanyolca yayımlanan ilk genel etki alanı dili çifti oldu.  Bir dil çiftini serbest bırakmak, daha fazla bırakmadan önce altyapıyı test etmemiz için bize izin verdi.  Ikinci olarak, Ispanyolca-Ingilizce için teknoloji Ingilizce-Ispanyolca için kullanılan daha biraz farklıydı, ve biz karşılamak için gerekli altyapı değişiklikleri yapmak için bazı ek zaman gerekir.  Gelecekte, yeni çeviri sistemlerini çiftleri (istisnalar birkaç) ile serbest bırakmak planlıyoruz.  Ben sonraki planladığımız hangi dilleri açığa olamaz, ama yakında bazı yeni olanlar bekliyoruz!

Bizim motorlar ve nasıl çalışma ile ilgili teknik tartışmalar ilgilenen olanlar Için, onları geliştirilen araştırmacılar tarafından bazı evraklara bakın lütfen.  Not üç son belgeleri şunlardır:

Chris Quirk, arul Menezes. İfadelere ihtiyacımız var mı? Istatistiksel makine tercümesi 'nde konvansiyonel bilgelik zorlu Mayıs 2006 New York, New York, ABD HLT-NAACL 2006 bildirileri

Chris Quirk, arul Menezes. Bağımlılık Treelet çevirisi: istatistiksel ve örnek tabanlı makine çevirisinin yakınsama? Mart 2006 makine çevirisi 43-65 (ekli dosya)


Chris Quirk, arul Menezes. Çeviri içinde generality geliştirmek için bağımlılık sipariş şablonlarını kullanma Temmuz 2007 Hesapsal Dilbilim Birliği

Bağımlılık Treelet çevirisi istatistiksel ve örnek tabanlı machinetranslation. PDF yakınsama