Microsoft Translator vydává literární čínský překlad

Zveřejněno dne úterý 25. srpna 2021úterý 30. srpna 2021vedle Microsoft Translator

Při čtení starověký Čínština poezie, často žasneme nad velmi nádhernými slovy, která by starověcí spisovatelé mohli použít k popisu lidí, událostí, objektů a scén. Je to nádherný kulturní poklad, který nám zůstal. Nicméně, podobně jako Shakespeare'verše v anglickém jazyce, literární čínština používaná těmito básníky je pro moderní lidi často obtížně pochopitelná a významy a jemnosti v něm zakotvené jsou často ztraceny.

K vyřešení tohoto problému vědci z Microsoft Research Asia přijali nejnovější techniky neurálního strojového překladu pro výcvik modelů přímého překladu mezi literární čínštinou a moderní čínštinou, což také vede k vytváření překladatelských schopností mezi literární čínštinou a více než 90 dalších jazyků a dialekty v microsoft translatoru. V současné době byl literární čínský překlad integrován do Microsoft Translator aplikace, Překladač služeb Azure Cognitive Servicesa řadu produktů společnosti Microsoft podporovaných službami Microsoft Translator.

Obrázek: Obraz z "Západní hory v mlhavém dešti" od Shen Zhou, dynastie Ming. Starodávná čínská báseň na obraze je z Yong Liu, dynastie Severních písní. Báseň zachycuje jarní scenérii v jižní Číně během festivalu Qingming a prosperitu společenského života.

Umožnění více lidem ocenit kouzlo tradiční čínské kultury

Literární čínština je důležitým nositelem tradiční čínské kultury. Objemné knihy a texty z dávných dob zaznamenaly Čínu'bohatá a hluboká kultura za posledních pět tisíc let. Myšlenky a moudrost nashromážděné a obsažené v nich jsou hodny neustálého zkoumání a myšlení.

S pomocí strojového překladu mohou turisté nyní porozumět starověkým čínským textům a básním napsaným na historických budovách a památkách, studenti mají nyní další nástroj, který jim pomůže učit se čínsky, a vědci, kteří se zabývají kompletováním a překladem starověkých textů, mohou být produktivnější.

Dongdong Zhang, hlavní výzkumník společnosti Microsoft Research Asia, řekl: "Z technického hlediska lze literární čínštinu považovat za samostatný jazyk. Jakmile je realizován překlad mezi literární čínštinou a moderní čínštinou, překlad mezi literární čínštinou a jinými jazyky, jako je angličtina, francouzština a němčina, se stává samozřejmostí."

Největší potíže s literárním čínským modelem AI překladů: Málo tréninkových dat

Nejkritičtějším prvkem školení modelu AI jsou data. Pouze v případě, že je objem dat dostatečně velký a jeho kvalita dostatečně vysoká Cna vás trénovat přesnější model. V strojovém překladu vyžaduje školení modelu dvojjazyčná data: původní textová data a cílová jazyková data. Překlad literární čínštiny je velmi zvláštní, jak to bylo"není jazyk používaný v každodenním životě. Proto jsou ve srovnání s překladem jiných jazyků vzdělávací údaje literárního čínského překladu velmi malé, což není pro školení modelů strojového překladu.

Ačkoli výzkumníci microsoft research asia shromáždili mnoho veřejně dostupných literárních a moderních čínských dat v raných fázích, původní data nelze přímo použít. Čištění dat musí být prováděno pro normalizaci dat z různých zdrojů, různých formátů, stejně jako plné šířky/interpunkce poloviční šířky, jako prostředek k minimalizaci rušení neplatných údajů při školení modelů. Tímto způsobem jsou dále omezena skutečná dostupná vysoce kvalitní data.

Podle Shuming Ma, výzkumného pracovníka společnosti Microsoft Research Asia, aby se snížil problém řídkosti dat, provedli vědci velké množství syntézy a augmentace dat, včetně:

Za první, běžný znak– zarovnání a rozšíření na základě školení, aby se zvětšivěl počet školicích dat. Liší se od překlady mezi čínštinou a jinými jazyky, jako je angličtina, francouzština, ruština atd., literární čínština a moderní čínština používají stejnou znakovou sadu. S využitím této funkce vědci z Microsoft Research Asia použili inovativní algoritmy, které umožňují strojnímu překladu vyvolání běžných znaků, provádění přirozeného zarovnání a další rozšiřování na slova, fráze a krátké věty, čímž syntetizují velké množství použitelných dat.

Za druhé, deformovat větnou strukturu pro zlepšení robustnosti strojového překladu. Týkající se přestávky v textech a básních, vědci přidali řadu variant, aby stroje komplexnější při učení starověkých básní. Pro lidi, i když vidí větu, která je strukturována abnormálně, jako je báseň rozdělená do řádků založených na rytmu spíše než na plných větách, mohou stále dát části dohromady a pochopit to. Ale u překladatelského modelu, který nikdy předtím takovou segmentaci neviděl, bude pravděpodobně zmatený. Transformace datového formátu proto může nejen rozšířit množství školicích dat, ale také zlepšit robustnost školení o modelu překladu.

Zatřetí, provádět tradiční a zjednodušené školení v oblasti překladu znaků s aby se zvýšila přizpůsobivost modelu. V čínštině existují tradiční postavy v literární i moderní čínštině. Když vědci model trénovali, aby zlepšili přizpůsobivost modelu, nejenže využili data ve zjednodušené čínštině, ale také přidali data v tradiční čínštině, stejně jako data smíchaná s tradičními a zjednodušenými znaky. Model tak může porozumět tradičnímu i zjednodušenému obsahu, což vede k přesnějším výsledkům překladu.

Začtvrté, zvýšit odbornou přípravu cizojazyčných slov s cílem zlepšit přesnost překladu. Při překladu moderní čínštiny do literární čínštiny často existují moderní slova odvozená z cizojazyčných slov a nových slov, která se nikdy neobjevila ve starověké čínštině, jako je "Microsoft", "počítač", "vysokorychlostní železnice" a mnoho dalších. K řešení tohoto problému vědci vyškolili malý model k rozpoznání entit. Model nejprve přeložil význam slova mimo entitu a poté vyplnil entitu zpět, aby byla zajištěna přesnost stroje.'zpracování cizích slov.

Obrázek: Ton literární čínština proces překladu

Kromě toho byl pro neformální styly psaní, jako jsou blogy, fóra, Weibo a tak dále, model strojového překladu speciálně vyškolen, aby dále zlepšil robustnost překladu mezi moderní a literární čínštinou.

Dongdong Zhang vyjádřil: "Na základě současného překladatelského systému budeme i nadále obohacovat soubor dat a zlepšovat metodu školení modelů, aby byla robustnější a všestrannější. V budoucnu může být metoda použita nejen pro literární čínský překlad, ale může být rozšířena i na další aplikační scénáře."

Blog aplikace Microsoft Translator