Перейти до основного
Перекладач
Ця сторінка була автоматично переведена на службу машинного перекладу Microsoft перекладача. Дізнатися більше

Microsoft Перекладач блог

Статистичний Машинний переклад – гість блогу (оновлено додатковою папером)

Буде Льюїс є менеджером програми в команді Microsoft перекладач, що працює на якість мови і придбання даних.  Гість блог сьогодні є високий рівень пояснення того, як працює двигун:  

Як багато з вас знають, під капотом Microsoft Перекладач живиться від статистичного машинного перекладу (SMT) двигун.  Статистичні системи відрізняються від правил, що базуються в тому, що "правила" відображення слів і фраз з однієї мови на іншу дізналися в системі, а не ручне кодування.  Підготовка ЗПТ вимагає накопичення великої кількості паралельної підготовки даних-сподіваюся гарної якості і від гетерогенних джерел-і підготовки двигуна на ці дані.  (Паралельно, ми маємо на увазі джерело даних, де вміст однієї мови є такою ж, як і вміст для іншого.)  Двигун вчить відповідностей між словами і фразами на одній мові, а ті, в іншому, які часто підкріплюються повторив входжень одних і тих же слів і фраз протягом усього входу.  Наприклад, у підготовці англо-німецької системи скажімо, якщо двигун бачить фразу Всі права застережені на англійській стороні, а також повідомлення Alle Rechte ворбехалтен на німецькій стороні, він може Вирівняти ці дві фрази, і призначити деяку ймовірність цього вирівнювання.  Повторне входження вихідних та цільових фраз у навчальних даних призведе лише до посилення цього вирівнювання.

Як правило, маючи паралельні дані для мовної пари означає, що ми можемо навчити двигунів в обох напрямках (тобто, як англійська-німецька та німецько-Англійська системи можуть бути навчені на ті ж вхідні пропозиції).  Деякі з вас були деякі питання, що стосуються того, чому це було, що ми випустили англійську-іспанську систему, перш ніж ми випустили іспанську-англійську.  Були дійсно дві причини.  По-перше, Англійська-Іспанська була першою мовою загальної доменної пари ми випустили.  Випускаючи одну мову пару дозволило нам протестувати інфраструктуру, перш ніж ми почали випускати більше.  По-друге, технологія для іспанської-англійської була дещо іншою, ніж використовується для англійської-іспанської мови, і нам потрібен додатковий час для виконання необхідних інфраструктурних змін для розміщення.  У подальшому ми плануємо випустити нові системи перекладу в парах (з парою винятків).  Я не можу розкрити, які мови ми запланували далі, але чекати деякі нові скоро!

Для тих з вас, зацікавлених в технічних дискусіях щодо наших двигунів і як вони працюють, будь ласка, зверніться до деяких з робіт дослідників, які їх розробили.  Три останні статті до відома:

Кріс жолобник, Арул Мензеш. Чи потрібні фрази? Складна мудрість звичайної у статистичній машинного перекладу 2006 травня, Нью-Йорк, Нью-Йорк, США Виробництво HLT-NAACL 2006

Кріс жолобник, Арул Мензеш. Залежність Треелет Переклад: Конвергенція статистичних та прикладів на основі машинного перекладу? Березень 2006 машинного перекладу 43-65 (вкладений файл)


Кріс жолобник, Арул Мензеш. Використання шаблонів залежностей для поліпшення спільності в перекладі Липня 2007 Асоціація обчислювальної лінгвістики

Залежність Treelet переклад конвергенції статистичної та зразкові machinetranslation. PDF