Fara í aðalefni
Þýðandi
Þetta page hefur verið sjálfkrafa þýtt með því að Microsoft Þýðandi er vél þýðing þjónustu. Læra meira

Microsoft Þýðandi Blogg

Microsoft Translator gefur út kínverska bókmenntaþýðingu

Við lestur forn Kínverska ljóð, við undrumst oft þau dásamlegu orð sem fornir rithöfundar gætu notað til að lýsa fólki, atburðum, hlutum og senum. Þetta er glæsilegur menningarfjársjóður sem hefur verið skilinn eftir fyrir okkur. Hins vegar, svipað og Shakespeare's vers á enskri tungu, bókmennta Kínverjar sem þessi skáld nota er oft erfitt fyrir nútíma fólk að skilja, og merking og lúsmý innbyggt í það glatast oft.  

Til að leysa þetta vandamál samþykktu vísindamenn hjá Microsoft Research Asia nýjustu þýðingaraðferðir taugavéla til að þjálfa bein þýðingarlíkön milli kínverskra og nútímalegra kínverja, sem einnig leiðir til þess að skapa þýðingargetu milli bókmennta kínverskra og meira en 90 önnur tungumál og mállýskur í Microsoft Translator. Eins og er hefur kínversk þýðing í bókmenntum verið samþætt í Microsoft Þýðandi app, Aftur Til Andlegrar Þjónustu Þýðandiog fjölda Microsoft-vara sem eru studdar af Microsoft Translator þjónustu. 

Mynd: Málverkið frá "West Mountain in Misty Rain" eftir Shen Zhou, Ming Dynasty. Hið forna kínverska ljóð um málverkið er frá Yong Liu, Norđursöngveldiđ. Ljóðið sýnir vorlands landslagið í suðurhluta Kína á Qingming-hátíðinni og velmegun félagslífsins.

Gerir fleirum kleift að meta sjarma hefðbundinnar kínverskrar menningar 

Bókmennta kínverska er mikilvægt flutningafyrirtæki hefðbundinnar kínverskrar menningar. Voluminous bækur og textar frá fornu fari hafa skráð Kína'rík og djúpstæð menning undanfarin fimm þúsund ár. Hugsanirnar og viskan sem safnast upp og er að finna í þeim er verðug stöðugrar könnunar og hugsunar.  

Með hjálp vélþýðinga geta ferðamenn nú skilið forna kínverska texta og ljóð sem skrifuð eru um sögulegar byggingar og minnisvarða, nemendur hafa nú auka tól til að hjálpa þeim að læra kínversku, og vísindamenn sem stunda að fella saman og þýða forna texta geta verið afkastamikill.     

Dongdong Zhang, aðalrannsakandi hjá Microsoft Research Asia, sagði: "Frá tæknilegu sjónarhorni má líta á bókmennta kínversku sem sérstakt tungumál. Þegar þýðingar á milli kínversku og nútíma kínversku eru orðnar að veruleika verður þýðingin á milli bókmennta kínversku og annarra tungumála eins og ensku, frönsku og þýsku að sjálfsögðu spurning."  

Stærstu erfiðleikar bókmennta kínverskrar þýðingar AI líkan: Lítil þjálfunargögn 

Mikilvægasti þátturinn í þjálfun AI-líkana eru gögn. Aðeins þegar gagnamagn er nógu stórt og gæði þess nógu mikil getur þú þjálfa nákvæmari líkan. Í vélþýðingu krefst þjálfun líkansins tvítyngdra gagna: upprunaleg textagögn og markgögn. Þýðing bókmennta kínversku er mjög sérstök, eins og það's ekki tungumál sem notað er í daglegu lífi.  Þess vegna, samanborið við þýðingu á öðrum tungumálum, þjálfunargögn bókmennta kínverskra þýðinga eru mjög lítil, sem er ekki til þess fallin að þjálfa vélþýðingarlíkön.   

Þrátt fyrir að vísindamenn Microsoft Research Asia hafi safnað miklu af opinberum bókmennta- og nútíma kínverskum gögnum á fyrstu stigum er ekki hægt að nota upprunalegu gögnin beint. Gagnahreinsun þarf að fara fram til að staðla gögn úr mismunandi áttum, ýmsum sniðum, svo og fullri breidd /greinarmerki með hálfri breidd, sem leið til að lágmarka truflun á ógildum gögnum um líkanaþjálfun. Þannig fækkar raunverulegum hágæða gögnum enn frekar.  

Samkvæmt Shuming Ma, rannsakandi hjá Microsoft Research Asia, í því skyni að draga úr gögnum sparneytni mál, vísindamenn hafa framkvæmt mikið magn af gögnum myndun og augmentation vinnu, þar á meðal: 

Í fyrsta lagi sameiginlegur stafur byggt jöfnun og stækkun til að auka þjálfun gagnastærð. Frábrugðið þýðingar milli kínversku og annarra tungumála eins og ensku, frönsku, rússnesku o.s.frv., bókmennta kínversku og nútíma Kínversku nota sama stafamengi. Með því að nýta sér þennan eiginleika hafa vísindamenn hjá Microsoft Research Asia notað nýstárlegar reiknirit til að leyfa vélþýðingu að innkalla algenga stafi, sinna náttúrulegri röðun og stækka síðan enn frekar í orð, setningar og stuttar setningar og mynda þannig mikið magn af nothæfum gögnum.  

Í öðru lagi, afmynda setningu uppbyggingu til að bæta öflugt vél þýðing. Varðandi brot í textum og ljóðum, vísindamenn hafa bætt við fjölda afbrigða til að gera vélar umfangsmeiri í að læra forn ljóð. Fyrir fólk, jafnvel þegar það sér setningu sem er skipulögð óeðlilega, svo sem ljóð sem er skipt í línur byggðar á takti frekar en fullum setningum, getur það samt sett varahlutina saman og skilið það. En fyrir þýðingarlíkan sem aldrei hefur séð slíka sundurliðun áður verður það líklega ruglað saman. Þess vegna getur umbreyting gagnasniðs ekki aðeins aukið magn þjálfunargagna, heldur einnig bætt öflugleika þjálfunarlíkansins.  

Í þriðja lagi að sinna hefðbundinni og einfaldaðri þýðingarþjálfun persónu til að auka aðlögunarhæfni líkans. Á kínversku eru hefðbundnar persónur til bæði í bókmennta- og nútíma kínversku. Þegar vísindamenn þjálfuðu líkanið, í því skyni að bæta aðlögunarhæfni líkansins, skuldsettu þeir ekki aðeins gögn í einfölduðu kínversku, heldur bættu einnig við gögnum á hefðbundnum kínverskum, auk gagna í bland við hefðbundna og einfaldaða stafi. Þannig getur líkanið skilið bæði hefðbundið og einfaldað innihald, sem leiðir til nákvæmari niðurstaðna þýðinga.   

Í fjórða lagi að auka þjálfun orðanna á erlendu tungumáli til að bæta nákvæmni þýðinga. Þegar nútíma kínverska er þýdd yfir í bókmennta kínversku eru oft nútímaorð fengin úr erlendum orðum og nýjum orðum sem aldrei hafa birst á kínversku til forna, svo sem "Microsoft", "tölva", "háhraðalest", og mörgum öðrum líkar það. Til að takast á við þetta mál þjálfuðu vísindamenn lítið líkan til að þekkja aðila. Líkanið þýddi fyrst merkingu orðsins utan einingarinnar og fyllti síðan eininguna aftur inn til að tryggja nákvæmni vélarinnar's vinnsla erlendu orðanna.    

Mynd: Thann bókmennta kínverska þýðingarferli

Að auki, fyrir óformlega ritstíl eins og blogg, ráðstefnur, Weibo, og svo framarlega, hefur vélþýðingarlíkanið verið þjálfað sérstaklega til að bæta enn frekar öflugt þýðingar milli nútíma og bókmennta kínversku.  

Dongdong Zhang tjáði sig: "Byggt á núverandi þýðingarkerfi munum við halda áfram að auðga gagnasafnið og bæta þjálfunaraðferð líkansins til að gera það öflugra og fjölhæfara. Í framtíðinni má ekki aðeins nota aðferðina til bókmennta kínverskra þýðinga, heldur er einnig hægt að víkka út aðra umsóknaraðstæður."