Статистический машинный перевод-Гость блог (Обновлено с дополнительной бумаги)

Опубликовано на 22 августа 2008 г.около Microsoft Research

Будет Льюис менеджер программы по Microsoft переводчик команды, работающие на качество языка и сбора данных. Сегодняшний гость блог высокого уровня объяснение того, как работает двигатель:

Как многие из вас знают, под капотом Microsoft Translator питается от статистического машинного перевода (SMT) двигателя. Статистические системы отличаются от основанных на правилах тем, что "правила", составляя слова и фразы из одного языка в другой, изучаются системой, а не запрограммированными вручную. Обучение SMT требует накопления большого количества параллельных обучающих данных — надеюсь, хорошего качества и из разнородных источников — и подготовки двигателя к этим данным. (Параллельно мы подразумеваем источник данных, где содержимое для одного языка совпадает с содержимым другого.) Двигатель узнает соответствия между словами и фразами на одном языке, а те в другом, которые часто усиливаются повторяющиеся вхождения одного и того же слова и фразы на протяжении всего ввода. Например, в обучении англо-немецкой системе скажем, если двигатель видит фразу Все права защищены на английской стороне, а также замечает Все Рехте защищены на немецкой стороне, он может выровнять эти две фразы, и назначить некоторую вероятность этого выравнивания. Повторяющиеся вхождения исходных и целевых фраз в обучающих данных будут только усиливать эту трассу.

Как правило, наличие параллельных данных для языковой пары означает, что мы можем обучать двигатели в обоих направлениях (то есть, как англо-немецкие, так и немецко-английские системы могут обучаться на одних и тех же входных предложениях). Некоторые из вас были некоторые вопросы относительно того, почему это было то, что мы выпустили англо-испанской системы, прежде чем мы выпустили Испанский-Английский. Существовали действительно две причины. Во-первых, англо-испанская была первой общей языковой парой доменов, которую мы выпустили. Освобождение одной языковой пары позволило нам протестировать инфраструктуру, прежде чем мы начали выпускать больше. Во-вторых, технология для испанско-английского языка немного отличалась от того, что используется для англо-испанского языка, и нам нужно некоторое дополнительное время, чтобы сделать необходимые инфраструктурные изменения для размещения. В будущем мы планируем выпустить новые системы перевода парами (с парой исключений). Я не могу раскрыть какие языки мы запланировали следующий, но ожидайте некоторые новые одни скоро!

Для тех из вас, кто заинтересован в технических дискуссиях относительно наших двигателей и как они работают, пожалуйста, обратитесь к некоторым из работ исследователей, которые разработали их. Три последних документа заметок:

Крис причуды, Arul Менезеш. Нужны ли нам фразы? Оспаривание обычной мудрости в статистическом машинном переводе Май 2006 Нью-Йорк, Нью-Йорк, США Материалы по делу Hit-НААКЛ 2006

Крис причуды, Arul Менезеш. Трилет перевода зависимостей: конвергенция статистического и машинного перевода, основанного на примерах? Март 2006 машинный перевод 43-65 (прикрепленный файл)

Крис причуды, Arul Менезеш. Использование шаблонов порядка зависимостей для повышения универсальности в переводе 2007 июля Ассоциация вычислительной лингвистики

Перевод Трилет зависимостей конвергенция статистических и основанных на примерах мачинетранслатион. PDF

Блог переводчика Майкрософт