Перейти к основному контенту
Translator
Эта страница была автоматически переведена службой машинного перевода Microsoft Translator. Подробнее

Блог переводчика Майкрософт

Статистический машинный перевод-Гость блог (Обновлено с дополнительной бумаги)

Будет Льюис менеджер программы по Microsoft переводчик команды, работающие на качество языка и сбора данных.  Сегодняшний гость блог высокого уровня объяснение того, как работает двигатель:  

Как многие из вас знают, под капотом Microsoft Translator питается от статистического машинного перевода (SMT) двигателя.  Статистические системы отличаются от основанных на правилах тем, что "правила", составляя слова и фразы из одного языка в другой, изучаются системой, а не запрограммированными вручную.  Обучение SMT требует накопления большого количества параллельных обучающих данных — надеюсь, хорошего качества и из разнородных источников — и подготовки двигателя к этим данным.  (Параллельно мы подразумеваем источник данных, где содержимое для одного языка совпадает с содержимым другого.)  Двигатель узнает соответствия между словами и фразами на одном языке, а те в другом, которые часто усиливаются повторяющиеся вхождения одного и того же слова и фразы на протяжении всего ввода.  Например, в обучении англо-немецкой системе скажем, если двигатель видит фразу Все права защищены на английской стороне, а также замечает Все Рехте защищены на немецкой стороне, он может выровнять эти две фразы, и назначить некоторую вероятность этого выравнивания.  Повторяющиеся вхождения исходных и целевых фраз в обучающих данных будут только усиливать эту трассу.

Как правило, наличие параллельных данных для языковой пары означает, что мы можем обучать двигатели в обоих направлениях (то есть, как англо-немецкие, так и немецко-английские системы могут обучаться на одних и тех же входных предложениях).  Некоторые из вас были некоторые вопросы относительно того, почему это было то, что мы выпустили англо-испанской системы, прежде чем мы выпустили Испанский-Английский.  Существовали действительно две причины.  Во-первых, англо-испанская была первой общей языковой парой доменов, которую мы выпустили.  Освобождение одной языковой пары позволило нам протестировать инфраструктуру, прежде чем мы начали выпускать больше.  Во-вторых, технология для испанско-английского языка немного отличалась от того, что используется для англо-испанского языка, и нам нужно некоторое дополнительное время, чтобы сделать необходимые инфраструктурные изменения для размещения.  В будущем мы планируем выпустить новые системы перевода парами (с парой исключений).  Я не могу раскрыть какие языки мы запланировали следующий, но ожидайте некоторые новые одни скоро!

Для тех из вас, кто заинтересован в технических дискуссиях относительно наших двигателей и как они работают, пожалуйста, обратитесь к некоторым из работ исследователей, которые разработали их.  Три последних документа заметок:

Крис причуды, Arul Менезеш. Нужны ли нам фразы? Оспаривание обычной мудрости в статистическом машинном переводе Май 2006 Нью-Йорк, Нью-Йорк, США Материалы по делу Hit-НААКЛ 2006

Крис причуды, Arul Менезеш. Трилет перевода зависимостей: конвергенция статистического и машинного перевода, основанного на примерах? Март 2006 машинный перевод 43-65 (прикрепленный файл)


Крис причуды, Arul Менезеш. Использование шаблонов порядка зависимостей для повышения универсальности в переводе 2007 июля Ассоциация вычислительной лингвистики

Перевод Трилет зависимостей конвергенция статистических и основанных на примерах мачинетранслатион. PDF