Microsoft Translator wydaje literackie tłumaczenie na język chiński

Opublikowano w dniu Sierpień 25, 2021Sierpień 30, 2021przez Microsoft Translator

Podczas czytania starożytny Chiński poezja, często podziwiamy bardzo wspaniałe słowa, których starożytni pisarze mogli używać do opisywania ludzi, wydarzeń, przedmiotów i scen. To wspaniały skarb kultury, który został dla nas pozostawiony. Jednak podobny do Szekspira'Wersety w języku angielskim, literacki chiński używany przez tych poetów jest często trudny do zrozumienia dla współczesnych ludzi, a zawarte w nim znaczenia i subtelności są często tracone.

Aby rozwiązać ten problem, naukowcy z Microsoft Research Asia przyjęli najnowsze techniki neuronowego tłumaczenia maszynowego do trenowania modeli bezpośredniego tłumaczenia między literackim chińskim a współczesnym chińskim, co również skutkuje tworzeniem możliwości tłumaczeniowych między literackim chińskim a literackim ponad 90 innych języków i dialekty w usłudze Microsoft Translator. Obecnie literackie chińskie tłumaczenie zostało włączone do Aplikacja Microsoft Translator, Azure Cognitive Services Translatororaz szereg produktów firmy Microsoft obsługiwanych przez usługi Microsoft Translator.

Obraz: Obraz z "West Mountain in Misty Rain" autorstwa Shen Zhou, dynastia Ming. Starożytny chiński wiersz na obrazie pochodzi z Yong Liu, Północna Dynastia Song. Wiersz przedstawia wiosenną scenerię w południowych Chinach podczas festiwalu Qingming i dobrobyt życia społecznego.

Umożliwienie większej liczbie osób docenienia uroku tradycyjnej chińskiej kultury

Literacki chiński jest ważnym nośnikiem tradycyjnej chińskiej kultury. Obszerne książki i teksty z czasów starożytnych zapisały Chiny'bogatej i głębokiej kultury w ciągu ostatnich pięciu tysięcy lat. Zgromadzone i zawarte w nich myśli i mądrość są warte nieustannej eksploracji i myślenia.

Dzięki tłumaczeniu maszynowemu turyści mogą teraz zrozumieć starożytne chińskie teksty i wiersze napisane na historycznych budynkach i zabytkach, uczniowie mają teraz dodatkowe narzędzie, które pomaga im uczyć się chińskiego, a naukowcy, którzy zajmują się zestawianiem i tłumaczeniem starożytnych tekstów, mogą być bardziej produktywni.

Dongdong Zhang, główny badacz w Microsoft Research Asia, powiedział: "Z technicznego punktu widzenia literacki chiński można uznać za odrębny język. Po zrealizowaniu tłumaczenia między literackim chińskim a współczesnym chińskim, tłumaczenie między literackim chińskim a innymi językami, takimi jak angielski, francuski i niemiecki, staje się oczywistością.

Największa trudność literackiego chińskiego tłumaczenia modelu AI: Mało danych treningowych

Najbardziej krytycznym elementem szkolenia modeli AI są dane. Tylko wtedy, gdy ilość danych jest wystarczająco duża, a ich jakość wystarczająco wysoka Cna ty trenować dokładniejszy model. W tłumaczeniu maszynowym szkolenie modelu wymaga danych dwujęzycznych: oryginalnych danych tekstowych i danych języka docelowego. Tłumaczenie literackiego chińskiego jest bardzo wyjątkowe, jak to"nie jest językiem używanym w życiu codziennym. Dlatego w porównaniu z tłumaczeniem innych języków dane szkoleniowe literackiego tłumaczenia chińskiego są bardzo małe, co nie sprzyja szkoleniu modeli tłumaczenia maszynowego.

Chociaż naukowcy z Microsoft Research Asia zebrali wiele publicznie dostępnych danych literackich i współczesnych chińskich na wczesnym etapie, oryginalne dane nie mogą być bezpośrednio wykorzystane. Czyszczenie danych musi być przeprowadzone w celu normalizacji danych z różnych źródeł, różnych formatów, a także pełnej szerokości /interpunkcje o połowie szerokości, jako środek minimalizujący ingerencję nieprawidłowych danych w szkolenie modeli. W ten sposób rzeczywiste dostępne dane wysokiej jakości są jeszcze bardziej zredukowane.

Według Shuminga Ma, badacza z Microsoft Research Asia, w celu zmniejszenia problemu rzadkości danych, naukowcy przeprowadzili wiele prac związanych z syntezą i powiększaniem danych, w tym:

Po pierwsze, wspólny charakter– w oparciu o wyrównanie i rozbudowę w celu zwiększenia rozmiaru danych treningowych. Różni się od tłumaczenia między chińskim a innymi językami, takimi jak angielski, francuski, rosyjski itp., Literacki chiński i współczesny chiński używają tego samego zestawu znaków. Korzystając z tej funkcji, naukowcy z Microsoft Research Asia wykorzystali innowacyjne algorytmy, aby umożliwić tłumaczeniu maszynowemu przywoływanie typowych znaków, przeprowadzanie naturalnego wyrównania, a następnie dalsze rozszerzanie na słowa, frazy i krótkie zdania, syntetyzując w ten sposób dużą ilość użytecznych danych.

Po drugie, zdeformuj strukturę zdań, aby poprawić solidność tłumaczenia maszynowego. Odnośnie przerwy w tekstach i wierszach, naukowcy dodali wiele wariantów, aby uczynić maszyny bardziej wszechstronnymi w nauce starożytnych wierszy. Dla ludzi, nawet jeśli widzą zdanie, które jest nienormalnie skonstruowane, takie jak wiersz podzielony na linie oparte na rytmie, a nie pełne zdania, nadal mogą połączyć części i zrozumieć je. Ale w przypadku modelu tłumaczenia, który nigdy wcześniej nie widział takiej segmentacji, prawdopodobnie będzie zdezorientowany. Dlatego transformacja formatu danych może nie tylko zwiększyć ilość danych szkoleniowych, ale także poprawić solidność szkolenia modelu tłumaczenia.

Po trzecie, przeprowadź tradycyjne i uproszczone szkolenie z tłumaczenia znaków, aby zwiększyć zdolność adaptacji modelu. W języku chińskim tradycyjne znaki istnieją zarówno w literackim, jak i współczesnym chińskim. Kiedy naukowcy przeszkolili model, aby poprawić zdolność adaptacji modelu, nie tylko wykorzystali dane w uproszczonym chińskim, ale także dodali dane w tradycyjnym chińskim, a także dane zmieszane z tradycyjnymi i uproszczonymi znakami. W ten sposób model może zrozumieć zarówno tradycyjną, jak i uproszczoną treść, co prowadzi do dokładniejszych wyników tłumaczenia.

Po czwarte, zwiększ szkolenie słów obcojęzycznych, aby poprawić dokładność tłumaczenia. Tłumacząc współczesny chiński na literacki chiński, często pojawiają się nowoczesne słowa pochodzące od słów obcojęzycznych i nowe słowa, które nigdy nie pojawiły się w starożytnym chińskim, takie jak "Microsoft", "komputer", "szybka kolej" i wiele innych podobnych. Aby poradzić sobie z tym problemem, naukowcy wyszkolili mały model rozpoznawania jednostek. Model najpierw przetłumaczył znaczenie słowa poza jednostką, a następnie wypełnił jednostkę z powrotem, aby zapewnić dokładność maszyny.'s przetwarzanie obcych słów.

Obraz: Ton literacki chiński proces tłumaczenia

Ponadto, w przypadku nieformalnych stylów pisania, takich jak blogi, fora, Weibo i tak dalej, model tłumaczenia maszynowego został przeszkolony specjalnie w celu dalszej poprawy solidności tłumaczenia między współczesnym i literackim chińskim.

Dongdong Zhang powiedział: "W oparciu o obecny system tłumaczeń będziemy nadal wzbogacać zestaw danych i ulepszać metodę szkolenia modeli, aby uczynić ją bardziej solidną i wszechstronną. W przyszłości metoda ta może być stosowana nie tylko do literackiego tłumaczenia chińskiego, ale może być również rozszerzona na inne scenariusze zastosowań. "

Blog Microsoft Translator