Перекладач Microsoft випустив літературний китайський переклад

Опубліковано на 25 червня 2021 р.Серпень 30, 2021за Microsoft Перекладач

Під час читання стародавній китайська поезія, ми часто дивуватися дуже чудовим словам стародавніх письменників може використовувати для опису людей, подій, об'єктів і сцен. Це чудовий культурний скарб, який залишився для нас. Однак, схожий на Шекспіра'вірші англійською мовою, літературні китайські, що використовуються цими поетами, часто важко зрозуміти сучасним людям, а значення і тонкощі, вбудовані в неї, часто втрачається.

Щоб вирішити цю проблему, дослідники Microsoft Research Asia прийняли новітні методи нейронного машинного перекладу для навчання моделей прямого перекладу між літературною китайською та сучасною китайською мовами, що також призводить до створення можливостей перекладу між літературною китайською та літературною китайською мовами. більше 90 інших мов і діалекти в перекладачі Microsoft. В даний час літературний китайський переклад був інтегрований в Застосунок Microsoft Перекладач, Azure пізнавальні послуги Перекладачі ряд продуктів корпорації Майкрософт, які підтримуються службами Перекладача Microsoft.

Зображення: Картина з "Західної гори в туманний дощ" Ши Чжоу, династія Мін. Стародавній китайський вірш на картині з Йонг Лю, північна династія Сонг. Поема зображує весняні пейзажі на півдні Китаю під час фестивалю Ціньмін і процвітання соціального життя.

Надання можливості більшій кількості людей оцінити чарівність традиційної китайської культури

Літературний китайець є важливим носієм традиційної китайської культури. Об'ємні книги і тексти з давніх часів зафіксував Китай'багату і глибоку культуру протягом останніх п'яти тисяч років. Думки і мудрість, накопичені і містяться в них, гідні постійного вивчення і мислення.

За допомогою машинного перекладу туристи тепер можуть зрозуміти стародавні китайські тексти і вірші, написані на історичних будівлях і пам'ятниках, студенти тепер мають додатковий інструмент, який допоможе їм вивчити китайську мову, а дослідники, які займаються змовою і перекладом стародавніх текстів, можуть бути більш продуктивними.

Донгдун Чжан, головний дослідник Microsoft Research Asia, сказав: "З технічної точки зору, літературний китайський можна розглядати як окрему мову. Після того, як переклад між літературною китайською та сучасною китайською мовами буде реалізовано, переклад між літературною китайською та іншими мовами, такими як англійська, французька та німецька, звичайно, стає справою».

Найбільша складність моделі штучного ші літературного китайського перекладу: маленькі дані навчання

Найважливішим елементом навчання моделі штучного ші є дані. Тільки тоді, коли обсяг даних досить великий і його якість досить висока Можете Ви тренувати більш точну модель. При машинному перекладі навчання моделі вимагає двомовних даних: вихідних текстових даних і даних цільової мови. Переклад літературної китайської дуже особливий, як це"s не мова, яка використовується в повсякденному житті. Тому в порівнянні з перекладом інших мов навчальні дані літературного китайського перекладу дуже малі, що не сприяє навчанню моделей машинного перекладу.

Хоча дослідники Microsoft Research Asia зібрали багато загальнодоступних літературних і сучасних китайських даних на ранніх стадіях, оригінальні дані не можуть бути безпосередньо використані. Очищення даних потрібно проводити для нормалізації даних з різних джерел, різних форматів, а також повного/знаки пунктуації половинної ширини, як засіб мінімізації втручання недійсних даних у навчання моделі. Таким чином, фактичні доступні високоякісні дані ще більше скорочуються.

За словами Шумінга Ма, дослідника Microsoft Research Asia, щоб зменшити проблему розрідження даних, дослідники провели великий обсяг роботи з синтезу та розширення даних, включаючи:

По-перше, загальний символ– вирівнювання та розширення для збільшення розміру навчальних даних. Відрізняється від Переклади між китайською та іншими мовами, такими як англійська, французька, російська і т.д., літературна китайська і сучасна китайська використовують один і той же набір символів. Скориставшись цією функцією, дослідники Microsoft Research Asia використовували інноваційні алгоритми, щоб дозволити машинному перекладу відкликати загальні символи, провести природне вирівнювання, а потім ще більше розширитися до слів, фраз і коротких речень, тим самим синтезуючи велику кількість корисних даних.

По-друге, деформувати структуру речення для підвищення надійності машинного перекладу. Щодо перерви в текстах і віршах, дослідники додали ряд варіантів, щоб зробити машини більш всеосяжними в вивченні стародавніх віршів. Для людей, навіть коли вони бачать речення, яке структуроване ненормально, наприклад, вірш, сегментований на рядки, засновані на ритмі, а не на повних реченнях, вони все одно можуть зібрати частини разом і зрозуміти це. Але для моделі перекладу, яка ніколи раніше не бачила такої сегментації, вона, швидше за все, буде заплутана. Тому трансформація формату даних може не тільки розширити обсяг навчальних даних, але і підвищити надійність навчання моделі перекладу.

По-третє, провести традиційне та спрощене навчання перекладу символів для підвищення адаптивності моделі. У китайській мови традиційні ієрогліфи існують як в літературній, так і в сучасній китайській. Коли дослідники навчали модель, щоб поліпшити адаптивність моделі, вони не тільки використовували дані спрощеною китайською мовою, але і додавали дані традиційною китайською мовою, а також дані, змішані з традиційними і спрощеними символами. Таким чином, модель може розуміти як традиційний, так і спрощений зміст, що призводить до більш точних результатів перекладу.

По-четверте, підвищити підготовку слів іноземною мовою для підвищення точності перекладу. При перекладі сучасної китайської мови на літературну китайську часто зустрічаються сучасні слова, отримані з іноземних слів і нових слів, які ніколи не з'являлися в древніх китайських, таких як «Microsoft», «комп'ютер», «високошвидкісна залізниця» і багато інших подібних. Щоб вирішити цю проблему, дослідники навчили невелику модель розпізнавати сутності. Модель спочатку переклала значення слова за межами сутності, а потім заповнила сутність назад, щоб забезпечити точність машини.'обробка іноземних слів.

Зображення: TВін літературний китайський процес перекладу

Крім того, для неформальних стилів письма, таких як блоги, форуми, Weibo і так далі, модель машинного перекладу була навчена спеціально для подальшого поліпшення надійності перекладу між сучасним і літературним китайським.

Донгдун Чжан висловив думку: «Виходячи з поточної системи перекладу, ми продовжимо збагачувати набір даних і вдосконалювати метод підготовки моделей, щоб зробити його більш надійним і універсальним. У майбутньому метод може бути не тільки використаний для літературного китайського перекладу, але і може бути поширений на інші сценарії застосування ».

Microsoft Перекладач блог