İçeriğe özkan
Translator
Bu sayfa, Microsoft Translator'ın makine çeviri hizmeti tarafından otomatik olarak çevrilmiştir. Daha fazla bilgi edinin

Microsoft Translator blog

Microsoft Translator edebi Çince çeviri yayınladı

Okurken antik Çince şiir, eski yazarların insanları, olayları, nesneleri ve sahneleri tanımlamak için kullanabilecekleri çok harika kelimelere genellikle hayret ederiz. Bu bizim için geride bırakılmış muhteşem bir kültür hazinesi. Ancak, Shakespeare'e benzer'İngiliz dilindeki dizeler, bu şairler tarafından kullanılan edebi Çince modern zaman insanları için anlamak genellikle zordur ve içine gömülü anlamlar ve incelikler sıklıkla kaybolur.  

Bu sorunu çözmek için, Microsoft Research Asia'daki araştırmacılar edebi Çince ve modern Çince arasında doğrudan çeviri modelleri eğitmek için en son sinir makinesi çeviri tekniklerini benimsediler, bu da edebi Çince ve modern Çince arasında çeviri yetenekleri yaratılmasına neden oluyor. 90'dan fazla diğer dil ve Microsoft Translator'daki lehçeler. Şu anda, edebi Çince çeviri entegre edilmiştir Microsoft Translator uygulaması, Azure Bilişsel Hizmetler Çevirmenive Microsoft Translator hizmetleri tarafından desteklenen bir dizi Microsoft ürünü. 

Resim: Shen Zhou, Ming Hanedanı'nın "Puslu Yağmurda Batı Dağı"ndan resim. Resimdeki eski Çin şiiri Yong Liu, Kuzey Song Hanedanı. Şiir, Qingming Festivali sırasında Güney Çin'deki bahar manzarasını ve sosyal yaşamın refahını tasvir ediyor.

Daha fazla insanın geleneksel Çin kültürünün cazibesini takdir etmesini sağlamak 

Edebi Çince, geleneksel Çin kültürünün önemli bir taşıyıcısıdır. Eski zamanlardan kalma hacimli kitaplar ve metinler Çin'i kaydetmiş'son beş bin yılda zengin ve derin bir kültür. İçlerinde biriken ve içinde bulunan düşünceler ve bilgelik sürekli keşif ve düşünmeye layıktır.  

Makine çevirisi yardımıyla, turistler artık tarihi binalara ve anıtlara yazılmış eski Çin metinlerini ve şiirlerini anlayabilirler, öğrenciler artık Çince öğrenmelerine yardımcı olmak için ekstra bir araca sahiptir ve eski metinleri harmanlamak ve çevirmekle uğraşan araştırmacılar daha üretken olabilir.     

Microsoft Research Asia'nın baş araştırmacılarından Dongdong Zhang, "Teknik açıdan, edebi Çince ayrı bir dil olarak kabul edilebilir. Edebi Çince ve modern Çince arasındaki çeviri gerçekleştikten sonra, edebi Çince ile İngilizce, Fransızca ve Almanca gibi diğer diller arasındaki çeviri elbette bir mesele haline gelir."  

Edebi Çince çeviri yapay zeka modelinin en büyük zorluğu: Küçük eğitim verileri 

Yapay zeka modeli eğitiminin en kritik unsuru veridir. Yalnızca veri hacmi yeterince büyükse ve kalitesi yeterince yüksekse -bilirsiniz siz daha doğru bir model eğitin. Makine çevirisinde, modelin eğitimi iki dilli veri gerektirir: orijinal metin verileri ve hedef dil verileri. Edebi Çince'nin çevirisi çok özeldir., olduğu gibi'günlük hayatta kullanılan bir dil değildir.  Bu nedenle, diğer dillerin çevirisi ile karşılaştırıldığında, edebi Çince çevirisinin eğitim verileri çok küçüktür, bu da makine çevirisi modellerinin eğitimine elverişli değildir.   

Microsoft Research Asia araştırmacıları erken aşamalarda kamuya açık birçok edebi ve modern Çin verisi toplasa da, orijinal veriler doğrudan kullanılamaz. Farklı kaynaklardan, çeşitli biçimlerden ve tam genişlikte/yarım genişlikli noktalama işaretleri, model eğitiminde geçersiz verilerin müdahalesini en aza indirmek için bir araç olarak. Bu şekilde, mevcut gerçek yüksek kaliteli veriler daha da azalır.  

Microsoft Research Asia araştırmacısı Shuming Ma'ya göre, veri seyrekliği sorununu azaltmak için araştırmacılar aşağıdakiler de dahil olmak üzere çok sayıda veri sentezi ve büyütme çalışması yürüttüler: 

İlk olarak, ortak karakter eğitim veri boyutunu artırmak için temel hizalama ve genişletme. Farklı Çince ve İngilizce, Fransızca, Rusça gibi diğer diller, edebi Çince ve modern Çince gibi diğer diller arasındaki çeviriler aynı karakter kümesini kullanır. Bu özellikten yararlanan Microsoft Research Asia'daki araştırmacılar, makine çevirisinin ortak karakterleri hatırlamasına, doğal hizalama yapmasına ve daha sonra kelimelere, ifadelere ve kısa cümlelere daha fazla genişlemesine ve böylece büyük miktarda kullanılabilir veri sentezlemesine izin vermek için yenilikçi algoritmalar kullandılar.  

İkincisi, makine çevirisinin sağlamlığını artırmak için cümle yapısını deforme edin. Ile ilgili metinlerde ve şiirlerde kırılmalar, araştırmacılar makineleri eski şiirleri öğrenmede daha kapsamlı hale getirmek için bir dizi varyant eklediler. İnsanlar için, tam cümlelerden ziyade ritme göre çizgilere bölümlenmiş bir şiir gibi anormal yapılandırılmış bir cümle gördüklerinde bile, parçaları bir araya getirebilir ve anlayabilirler. Ancak daha önce böyle bir segmentasyon görmemiş bir çeviri modeli için, muhtemelen karıştırılacaktır. Bu nedenle, veri biçiminin dönüşümü yalnızca eğitim verilerinin miktarını genişletmekle kalmaz, aynı zamanda çeviri modeli eğitiminin sağlamlığını da artırabilir.  

Üçüncüsü, model uyarlanabilirliğini artırmak için geleneksel ve basitleştirilmiş karakter çevirisi eğitimi gerçekleştirin. Çince'de geleneksel karakterler hem edebi hem de modern Çince'de bulunur. Araştırmacılar modeli eğittiklerinde, modelin uyarlanabilirliğini artırmak için, sadece basitleştirilmiş Çince'deki verilerden yararlanmakla kalmadılar, aynı zamanda geleneksel Çince'deki verilerin yanı sıra geleneksel ve basitleştirilmiş karakterlerle karıştırılan verileri de eklediler. Böylece, model hem geleneksel hem de basitleştirilmiş içeriği anlayabilir ve bu da daha doğru çeviri sonuçlarına yol açar.   

Dördüncüsü, çevirinin doğruluğunu artırmak için yabancı dildeki kelimelerin eğitimini artırmak. Modern Çince'yi edebi Çince'ye çevirirken, genellikle yabancı dildeki kelimelerden türetilen modern kelimeler ve "Microsoft", "bilgisayar", "hızlı tren" gibi eski Çince'de hiç ortaya çıkmamış yeni kelimeler vardır. Bu sorunla başa çıkmak için araştırmacılar varlıkları tanımak için küçük bir model eğitildiler. Model önce kelimenin anlamını varlığın dışına çevirdi, sonra makinenin doğruluğunu sağlamak için varlığı geri doldurdu'yabancı kelimelerin işlenmesi.    

Görsel: THge edebi Çince çeviri işlemi

Buna ek olarak, bloglar, forumlar, Weibo ve benzeri gayri resmi yazma stilleri için, makine çeviri modeli özellikle modern ve edebi Çince arasındaki çevirinin sağlamlığını daha da geliştirmek için eğitilmiştir.  

Dongdong Zhang, "Mevcut çeviri sistemine dayanarak, veri kümesini zenginleştirmeye ve daha sağlam ve çok yönlü hale getirmek için model eğitim yöntemini geliştirmeye devam edeceğiz. Gelecekte, yöntem sadece edebi Çince çeviri için değil, aynı zamanda diğer uygulama senaryolarına da genişletilebilir."