İçeriğe özkan
Translator
Bu sayfa, Microsoft Translator'ın makine çeviri hizmeti tarafından otomatik olarak çevrilmiştir. Daha fazla bilgi edinin

Microsoft Translator blog

Politik olarak yanlış makineler

Biz makine çeviri ekibi son birkaç ay içinde çeşitli teklifler için artan trafik görüyoruz Iken, biz trafik dün ani bir çarpma fark ettik. Agatha Christie ve Sherlock Holmes, bu tür Gizemler benim için dayanılmaz vardır büyüdü-ve takım diğer millet bir dizi sadece bu ani yumru neden bulmak için meraklı vardı. Biz düşündük ki IE8 etkinlik/Hızlandırıcı, Haberci bot, Tercümeleri ara, Office çevirileri Tüm gün önce ve böylece bu yumru için özel bir neden değildi aynı yükseliş eğilim gösteriyor.

Sonunda, biz bu Spike görmek neden bir potansiyel nedeni tespit başardık. Kullanıcı topluluğumuz, makine çeviri motorunun Ingilizce 'den Almanca 'ya birkaç isim için çevirisi nasıl işlediği konusunda bir tuhaflık buldu. Bu, motor bir partinin adayı adını diğer partiden birine çevirdiğinde, ABD seçimlerine kadar çalışan mevcut politik atmosferi göz önüne alındığında, bunun haber olarak bitmesini bekleniyor. Biz kesinlikle bu fenomen dışarı kontrol etmek için gelen tüm yeni kullanıcılar bekliyoruz Iken-biz kullanıcılarımızın neden bu tür şeylerin bize ve diğerlerinden istatistiksel eğitimli makine çeviri sistemleri ile zaman zaman gerçekleşmesi gibi görünüyor neden paylaşmak istedim.

Bir Istatistiksel makine çeviri motoru çok ve çok sayıda paralel veri, yani hem bir kaynak dilde (örneğin, Ingilizce) ve bir hedef dil (örneğin, Almanca), kaynak ve hedef birbirleriyle çevirileri olan veriler üzerinde eğitilmiştir. Motorumuz, destek verdiğimiz her dil çifti için milyonlarca cümle üzerinde eğitilmiştir. Sipariş veri belirli bir korpus üzerinde eğitmek için-Almanca tercüme edilmiştir Ingilizce Newswire makaleleri çok sayıda-biz ilk cümleler içine bu korpus kırmak zorunda. Sonra Corpus cümle kırık, biz bir cümle Aligner içine elde edilen cümleler beslemek, tek amacı hangi kaynak tarafında cümleler hedef tarafında cümleler ile hizalanır bulmak için. Bu önemsiz bir görev, bir tarafta bir cümle makul hedefe bir veya daha fazla cümleler (ya da muhtemelen hiç hiçbiri) ile hizalanabilir beri. Aligner bazen hata yapacaktır ve aslında bir çeviri değil başka bir cümle yanlış hizalayın. Özellikle kaynak ve hedef nadiren meydana gelen sözcükler varsa, bu bazı mistranslations neden olabilir. Çeviri motorumuz istatistiksel olduğundan, kaynak ve hedef verilerdeki sözcükler arasındaki ortak oluşum frekanslarına son derece güvenen bir durumdur. Belirli sözcükler seyrek oluşuyorsa — insanların isimleri, örneğin, yalnızca birkaç kez milyonlarca cümle arasında bir dizi ortaya çıkabilir — frekans eksikliği, kaynak ve hedef arasında yanlış "tahminler" kaynaklanan güvensizlik neden olabilir (yani, düşük belirli kaynak ve hedef sözcüklere atanan olasılıklar). Bu bizim çeviri sistemi bazı komik gaffes yol açabilir.

Yani, bu nasıl "makine" topluluk ile takım mizah duygusu atterleme ile sona erdi bir şekilde çevirmek için karar verdi. Biz düzgün hizalama sağlamak için çok çalışmaya devam ederken, bu tür bir durum tekrar olabilir sözcüklerin milyarlarca milyonlarca üzerinde inşa edilmiş bir istatistiksel sistemden bekleniyor olmaktır.

Hizalama ile geçerli sorun şimdi çözülmelidir ama bize bu blog aracılığıyla bizimle iletişime geçerek bu tür durumları belirlemek yardımcı tutmak için kullanıcıların topluluğumuzu teşvik.

-Vikram

Vikram dendi, Microsoft Translator ekibi için Iş stratejisi ve ürün planlaması 'nı açar