Тестирование качества перевода: Гость блог
Ананд Чакраварти является сдет на команду машинного перевода на протяжении последних 2,5 лет, был в Microsoft в течение 8 лет, и был первым тестером продукта на MT команды (и "все еще весело с тестированием MT:-)"). Сегодняшний гость блог о тестировании качества перевода.
—————————————————————————————————————
Один из первых моментов, который приходит на ум, когда речь идет о проверке качества системы перевода, как вы измеряете качество, или, точнее, точность перевода? Перевод между человеческими языками с помощью компьютеров является полем, которое почти полвека назад. Этот район достаточно сложный, что даже самые лучшие в настоящее время системы машинного перевода не близки к получению лингвистического качества, что было бы вполне удовлетворительным.
Частью задачи является множество различных данных точек, что люди процесса для того, чтобы понять смысл устного/письменного текста. Существует синтаксис, синтаксический анализ, семантика, контекст, неоднозначность, переупорядочение, все из которых и многое другое, вдаваться в понимание предложения. И это только предложение на 1 языке. Теперь рассмотреть вопрос о применении всех его восстановить предложение на другом языке и сделать его в равной степени значимым.
Некоторые примеры могут помочь сделать эту точку яснее. Термин ' Олимпиада 2008 ' является довольно однозначным. Аналогичным образом, можно было бы ожидать, что термин «выборы 2008» означает президентские выборы в США. Однако, если пользователь, скажем, из Канады, скорее всего, будет ссылаться на местные выборы там.
Более общим, и, следовательно, более распространенным, например, предложение, как "Примечание было неправильно". Является ли слово "Примечание" ссылкой на информативное сообщение или на музыкальный термин? Правильный перевод зависит от контекста. Используйте больше контекста, и ваши шансы получить более точный перевод улучшите. Это, однако, происходит за счет: чем больше контекста система пытается получить, тем медленнее ее производительность. Интеллектуальные решения по транспортировке предполагают правильное соотношение между повышением точности перевода и предоставлением пользователям работоспособного результата перевода. Конечно, оба важны. Ключ должен понять, где вы направляете усилия на улучшение в зависимости от того, насколько полезны конечный результат для пользователя.
Это становится особенно интересным при переводе документов или Web-страниц, а не только отдельных предложений. Допустим, запрос на перевод был получен для веб-страницы, содержащей 100 предложений. В зависимости от архитектуры системы перевода, эти предложения могут быть переданы одному процессу или распределены по нескольким процессам/машинам. В любом случае, ясно, что время, проведенное для перевода этой страницы в полном объеме пропорциональна максимальное время, проведенное для перевода приговора. Как долго мы тратим перевод предложения до того, что инвестированное время становится пагубным для времени пользователя? В стремлении к лучшему переводу, мы могли бы в конечном итоге блокирует пользователю получить что-нибудь информативным в ответ на их запрос на перевод. Таким образом, полезность системы регулируется решениями, которые принимаются для уравновешивания лингвистического качества и производительности приложений.
С продуктом Microsoft Translator, есть дополнительная особенность нашего двуязычного зрителя, что-то уникальное среди публично доступных продуктов перевода. Он поддерживает параллельное выделение текста, синхронизированную прокрутку и представляет страницу (ы) с прогрессивной отрисовкой. Это добавляет еще один слой к тому, что видят наши пользователи, и, следовательно, еще один слой для полировки и отделки.
В ближайшие недели, мы надеемся, чтобы принести вам более подробную информацию о конкретных областях, которые были и в настоящее время тестируется на судно высокого качества системы перевода. Не стесняйтесь размещать какие-либо вопросы у вас есть по этому вопросу, то вы всегда хотели спросить:-), в разделе комментариев.