Перейти к основному контенту
Translator
Эта страница была автоматически переведена службой машинного перевода Microsoft Translator. Подробнее

Блог переводчика Майкрософт

Microsoft Translator выпускает литературный перевод на китайский язык

При чтении древний китайский Поэзия, мы часто восхищаемся очень замечательными словами, которые древние писатели могли использовать для описания людей, событий, предметов и сцен. Это великолепное культурное сокровище, которое осталось для нас. Однако, похоже на Шекспира'Литературный китайский язык, используемый этими поэтами, часто трудно понять современным людям, а смыслы и тонкости, заложенные в нем, часто теряются.  

Чтобы решить эту проблему, исследователи из Microsoft Research Asia приняли новейшие методы нейронного машинного перевода для обучения моделей прямого перевода между литературным китайским и современным китайским языками, что также приводит к созданию возможностей перевода между литературным китайским и более 90: другие языки и диалекты в Microsoft Translator. В настоящее время литературный перевод на китайский язык интегрирован в Приложение транслятора Майкрософт, Переводчик когнитивных служб Azure, а также ряд продуктов Майкрософт, поддерживаемых службами Microsoft Translator. 

Изображение: Картина из «Западной горы под туманным дождем» Шэнь Чжоу, династия Мин. Древнекитайская поэма на картине из Ен Лю, династия Северная Сун. В стихотворении изображены весенние пейзажи на юге Китая во время фестиваля Цинмин и процветание общественной жизни.

Дать возможность большему народу оценить очарование традиционной китайской культуры 

Литературный китайский язык является важным носителем традиционной китайской культуры. Объемные книги и тексты с древних времен записал Китай'Богатая и глубокая культура за последние пять тысяч лет. Мысли и мудрость, накопленные и содержащиеся в них, достойны постоянного исследования и размышления.  

С помощью машинного перевода туристы теперь могут понимать древние китайские тексты и стихи, написанные на исторических зданиях и памятниках, у студентов теперь есть дополнительный инструмент, помогающий им изучать китайский язык, а исследователи, которые занимаются сопоставлением и переводом древних текстов, могут быть более продуктивными.     

Дундун Чжан, главный исследователь Microsoft Research Asia, сказал: «С технической точки зрения литературный китайский можно рассматривать как отдельный язык. Как только перевод между литературным китайским и современным китайским языками реализован, перевод между литературным китайским и другими языками, такими как английский, французский и немецкий, становится само собой разумеемым».  

Самая большая сложность модели ИИ художественного перевода на китайский язык: мало обучающих данных 

Наиболее важным элементом обучения модели ИИ являются данные. Только тогда, когда объем данных достаточно велик и их качество достаточно высокое Cna Вы обучить более точную модель. В машинном переводе для обучения модели требуются двуязычные данные: исходные текстовые данные и данные целевого языка. Перевод литературного китайского языка очень особенный, как это'Это не язык, используемый в повседневной жизни.  Поэтому по сравнению с переводом на другие языки обучающие данные художественного китайского перевода очень малы, что не способствует обучению моделей машинного перевода.   

Хотя исследователи Microsoft Research Asia собрали много общедоступных литературных и современных китайских данных на ранних стадиях, исходные данные не могут быть напрямую использованы. Очистка данных должна проводиться для нормализации данных из разных источников, различных форматов, а также полноразмерных/пунктуации половинной ширины, как средство минимизации помех недостоверных данных при обучении модели. Таким образом, фактические имеющиеся высококачественные данные еще больше сокращаются.  

По словам Шуминга Ма, исследователя из Microsoft Research Asia, чтобы уменьшить проблему разреженности данных, исследователи провели большое количество работ по синтезу и дополнению данных, в том числе: 

Во-первых, общий характер выравнивание и расширение для увеличения размера обучающих данных. Отличается от переводы между китайским и другими языками, такими как английский, французский, русский и т. Д., Литературный китайский и современный китайский используют один и тот же набор символов. Воспользовавшись этой функцией, исследователи из Microsoft Research Asia использовали инновационные алгоритмы, позволяющие машинному переводу вспоминать общие символы, проводить естественное выравнивание, а затем расширяться до слов, фраз и коротких предложений, тем самым синтезируя большое количество полезных данных.  

Во-вторых, деформировать структуру предложения для повышения надежности машинного перевода. Относительно Перерывы в текстах и стихах, исследователи добавили ряд вариантов, чтобы сделать машины более всеобъемлющими в изучении древних стихов. Для людей, даже когда они видят предложение, которое структурировано ненормально, например, стихотворение, сегментированное на строки, основанные на ритме, а не на полных предложениях, они все равно могут собрать части вместе и понять его. Но для модели перевода, которая никогда раньше не видела такой сегментации, она, скорее всего, будет запутанной. Таким образом, трансформация формата данных может не только расширить объем обучающих данных, но и повысить надежность обучения модели перевода.  

В-третьих, проводить традиционное и упрощенное обучение переводу символов для повышения адаптивности модели. В китайском языке традиционные иероглифы существуют как в литературном, так и в современном китайском языке. Когда исследователи обучили модель, чтобы улучшить адаптивность модели, они не только использовали данные на упрощенном китайском языке, но и добавили данные на традиционном китайском языке, а также данные, смешанные с традиционными и упрощенными символами. Таким образом, модель может понимать как традиционное, так и упрощенное содержание, что приводит к более точным результатам перевода.   

В-четвертых, повысить подготовку иноязычных слов для повышения точности перевода. При переводе современного китайского языка на литературный китайский часто встречаются современные слова, полученные из иноязычных слов и новые слова, которые никогда не появлялись в древнекитайском языке, такие как «Microsoft», «компьютер», «высокоскоростная железная дорога» и многие другие, подобные этому. Чтобы справиться с этой проблемой, исследователи обучили небольшую модель распознавать сущности. Модель сначала переводила значение слова вне сущности, а затем заполняла сущность обратно, чтобы обеспечить точность машины.'обработка иностранных слов.    

Изображение: TОн литературный китайский процесс перевода

Кроме того, для неформальных стилей письма, таких как блоги, форумы, Weibo и т. Д., Модель машинного перевода была специально обучена для дальнейшего повышения надежности перевода между современным и литературным китайским языками.  

Дундун Чжан сказал: «Основываясь на текущей системе перевода, мы продолжим обогащать набор данных и совершенствовать метод обучения модели, чтобы сделать его более надежным и универсальным. В будущем этот метод может быть использован не только для художественного перевода на китайский язык, но и может быть распространен на другие сценарии применения».