Je to v nádeji
Prekladateľ
Táto stránka bola automaticky preložená službou Prekladač strojového prekladu spoločnosti Microsoft. Dozvedieť sa viac

Microsoft prekladateľ blog

Microsoft Translator vydáva preklad z čínštiny

Pri čítaní starobylý čínština Poézia, často sa čudujeme veľmi nádherným slovám, ktoré by starovekí spisovatelia mohli použiť na opis ľudí, udalostí, objektov a scén. Je to veľký kultúrny poklad, ktorý nám zostal. Podobne ako Shakespeare'Verše v anglickom jazyku, literárna čínština používaná týmito básnikmi je často ťažké pochopiť pre moderných ľudí a významy a jemnosti, ktoré sú v ňom zakotvené, sa často strácajú.  

Na vyriešenie tohto problému výskumníci z Microsoft Research Asia prijali najnovšie techniky neurónového strojového prekladu na školenie modelov priameho prekladu medzi literárnou čínštinou a modernou čínštinou, čo tiež vedie k vytvoreniu prekladateľských schopností medzi literárnou čínštinou a Viac ako 90 ďalších jazykov dialekty v Microsoft Translator. V súčasnosti je literárny čínsky preklad integrovaný do Aplikácia Microsoft Translator, Azure Kognitívne služby Prekladateľa niekoľko produktov spoločnosti Microsoft, ktoré sú podporované službami Microsoft Translator. 

Obrázok: Obraz z "Západnej hory v hmlistom daždi" od Shen Zhou, dynastie Ming. Stará čínska báseň na maľbe je z Yong Liu, dynastia severných piesní. Báseň zobrazuje jarnú scenériu v južnej Číne počas festivalu Qingming a prosperitu spoločenského života.

Umožniť väčšiemu počtu ľudí oceniť kúzlo tradičnej čínskej kultúry 

Literárna čínština je významným nositeľom tradičnej čínskej kultúry. Objemné knihy a texty z dávnych čias zaznamenali Čínu'Bohatá a hlboká kultúra za posledných 5000 rokov. Myšlienky a múdrosť, ktoré sa v nich nahromadili a obsiahnuté, sú hodné neustáleho skúmania a myslenia.  

S pomocou strojového prekladu môžu turisti teraz porozumieť starovekým čínskym textom a básňam napísaným na historických budovách a pamiatkach, študenti majú teraz ďalší nástroj, ktorý im pomôže naučiť sa čínštinu, a výskumníci, ktorí sa zaoberajú zhromažďovaním a prekladom starých textov, môžu byť produktívnejší.     

Dongdong Zhang, hlavný výskumník spoločnosti Microsoft Research Asia, povedal: "Z technického hľadiska možno literárnu čínštinu považovať za samostatný jazyk. Akonáhle sa uskutoční preklad medzi literárnou čínštinou a modernou čínštinou, preklad medzi literárnou čínštinou a inými jazykmi, ako je angličtina, francúzština a nemčina, sa stáva samozrejmosťou."  

Najväčšie ťažkosti literárneho čínskeho modelu AI prekladu: malé údaje o školení 

Najkritickejším prvkom tréningu modelu umelej a umelej činnosti sú údaje. Iba vtedy, keď je objem údajov dostatočne veľký a jeho kvalita dostatočne vysoká Cna ste Vycvičte presnejší model. V strojovom preklade vyžaduje školenie modelu dvojjazyčné údaje: originálne textové údaje a údaje o cieľovom jazyku. Preklad literárnej čínštiny je veľmi špeciálny., ako "Nie je to jazyk používaný v každodennom živote.  Preto v porovnaní s prekladom iných jazykov sú školiace údaje literárneho čínskeho prekladu veľmi malé, čo neprispieva k odbornej príprave modelov strojového prekladu.   

Hoci výskumníci spoločnosti Microsoft Research Asia zhromaždili v počiatočných fázach veľa verejne dostupných literárnych a moderných čínskych údajov, pôvodné údaje nemôžu byť priamo použité. Čistenie údajov sa musí vykonať na normalizáciu údajov z rôznych zdrojov, rôznych formátov, ako aj z celej šírky/Interpunkcie s polovičnou šírkou, ako prostriedok na minimalizáciu rušenia neplatných údajov do modelového výcviku. Týmto spôsobom sa ďalej znižujú skutočné dostupné vysokokvalitné údaje.  

Podľa Shuming Ma, výskumníka spoločnosti Microsoft Research Asia, s cieľom znížiť problém s riedkosťou údajov výskumníci vykonali veľké množstvo práce syntézy a augmentácie údajov, vrátane: 

Po prvé, spoločný charakter zosúladenie a rozšírenie s cieľom zvýšiť veľkosť údajov o odbornej príprave. Na rozdiel od Preklady medzi čínštinou a inými jazykmi, ako je angličtina, francúzština, ruština atď., Literárna čínština a moderná čínština používajú rovnakú sadu znakov. Využívajúc túto funkciu, výskumníci z Microsoft Research Asia použili inovatívne algoritmy, ktoré umožňujú strojovému prekladu pripomínať bežné znaky, vykonávať prirodzené zarovnanie a potom sa ďalej rozširovať na slová, frázy a krátke vety, čím syntetizujú veľké množstvo použiteľných údajov.  

Po druhé, deformovať štruktúru viet na zlepšenie robustnosti strojového prekladu. Týkajúce Prestávky v textoch a básňach, výskumníci pridali niekoľko variantov, aby sa stroje stali komplexnejšími pri učení sa starých básní. Pre ľudí, aj keď vidia vetu, ktorá je štruktúrovaná abnormálne, ako je báseň rozdelená do riadkov založených skôr na rytme ako na plných vetách, môžu stále dať časti dohromady a pochopiť to. Ale pre prekladateľský model, ktorý nikdy predtým nevidel takúto segmentáciu, bude pravdepodobne zmätený. Transformácia dátového formátu preto môže nielen rozšíriť množstvo školiacich údajov, ale aj zlepšiť robustnosť školenia modelu prekladu.  

Po tretie, vykonávať tradičnú a zjednodušenú odbornú prípravu na preklad postáv s cieľom zvýšiť prispôsobivosť modelu. V čínštine existujú tradičné postavy v literárnej aj modernej čínštine. Keď výskumníci vyškolili model, aby zlepšili prispôsobivosť modelu, nielenže využili údaje v zjednodušenej čínštine, ale tiež pridali údaje v tradičnej čínštine, ako aj údaje zmiešané s tradičnými a zjednodušenými znakmi. Model tak môže pochopiť tradičný aj zjednodušený obsah, čo vedie k presnejším výsledkom prekladu.   

Po štvrté, zvýšiť odbornú prípravu cudzích jazykov na zlepšenie presnosti prekladu. Pri preklade modernej čínštiny do literárnej čínštiny často existujú moderné slová odvodené z cudzích slov a nových slov, ktoré sa nikdy neobjavili v starovekej čínštine, ako napríklad "Microsoft", "počítač", "vysokorýchlostná železnica" a mnoho ďalších. Na riešenie tohto problému výskumníci vyškolili malý model na rozpoznávanie subjektov. Model najprv preložil význam slova mimo entity a potom vyplnil entitu späť, aby sa zabezpečila presnosť stroja.'Spracovanie cudzích slov.    

Obrázok: THge literárna čínština proces prekladu

Okrem toho pre neformálne štýly písania, ako sú blogy, fóra, Weibo atď., bol model strojového prekladu vyškolený špeciálne na ďalšie zlepšenie robustnosti prekladu medzi modernou a literárnou čínštinou.  

Dongdong Zhang povedal: "Na základe súčasného prekladateľského systému budeme naďalej obohacovať súbor údajov a zlepšovať modelovú tréningovú metódu, aby bola robustnejšia a všestrannejšia. V budúcnosti môže byť metóda použitá nielen na literárny čínsky preklad, ale môže byť rozšírená aj na iné aplikačné scenáre."