Vrijeme Jeli na glavniju
Prevoditelj
Ova stranica automatski je prevedena pomoću servisa za strojno prevođenje tvrtke Microsoft Translator. Saznajte više

Blog Microsoft prevoditelj

Microsoft Translator objavio književni kineski prijevod

Prilikom čitanja drevan kineski poezije, često se divimo vrlo divnim riječima koje bi drevni pisci mogli koristiti za opisivanje ljudi, događaja, predmeta i scena. Ovo je sjajno kulturno blago koje je ostavljeno za nas. Međutim, slično Shakespeareu'stihovi na engleskom jeziku, književni kinezi koje koriste ti pjesnici često je teško razumjeti suvremenim ljudima, a značenja i suptilnosti ugrađene u njega često se gube.  

Da bi riješili ovaj problem, istraživači u Microsoft Research Asia usvojili su najnovije tehnike prevođenja neuronskih strojeva za obuku modela izravnog prevođenja između književnog kineskog i modernog kineskog, što također rezultira stvaranjem mogućnosti prevođenja između književnog kineskog i više od 90 drugih jezika i dijalekti u programu Microsoft Translator. Trenutačno je književno kinesko prevođenje integrirano u Microsoft prevoditelj zahtjev, Prevoditelj kognitivnih usluga azurei niz Microsoftovih proizvoda koje podržavaju servisi Microsoft Translatora. 

Slika: Slika iz "Zapadne planine u maglovitoj kiši" Shen Zhou, dinastija Ming. Drevna kineska pjesma na slici je iz Yong Liu, sjeverna song dinastija. Pjesma prikazuje proljetni krajolik u južnoj Kini tijekom Qingming festivala i prosperitet društvenog života.

Omogućavanje većem broju ljudi da cijene šarm tradicionalne kineske kulture 

Književni kineski je važan nositelj tradicionalne kineske kulture. Voluminozne knjige i tekstovi iz antičkih vremena zabilježili su Kinu'bogata i duboka kultura u posljednjih pet tisuća godina. Misli i mudrost akumulirane i sadržane u njima dostojne su kontinuiranog istraživanja i razmišljanja.  

Uz pomoć strojnog prevođenja, turisti sada mogu razumjeti drevne kineske tekstove i pjesme napisane na povijesnim zgradama i spomenicima, studenti sada imaju dodatni alat koji će im pomoći da nauče kineski, a istraživači koji se bave uspoređivanjem i prevođenjem drevnih tekstova mogu biti produktivniji.     

Dongdong Zhang, glavni istraživač u Microsoft Research Asia, rekao je: "Iz tehničke perspektive, književni kineski može se smatrati zasebnim jezikom. Jednom kada se ostvari prijevod između književnog kineskog i modernog kineskog, prijevod između književnog kineskog i drugih jezika kao što su engleski, francuski i njemački postaje stvar, naravno."  

Najveća poteškoća književnog kineskog prijevoda AI modela: Malo podataka o treningu 

Najkritičniji element treninga modela AI su podaci. Samo kada je količina podataka dovoljno velika i ako je njezina kvaliteta dovoljno visoka Cna Ti, ti. trenirati točniji model. U strojnom prevođenju obuka modela zahtijeva dvojezične podatke: izvorne tekstualne podatke i podatke o ciljnom jeziku. Prijevod književnog kineskog jezika vrlo je poseban, kao što je to'nije jezik koji se koristi u svakodnevnom životu.  Stoga, u usporedbi s prijevodom drugih jezika, podaci o osposobljavanju književnog kineskog prevođenja vrlo su mali, što ne pogoduje obuci modela strojnog prevođenja.   

Iako su istraživači Microsoft Research Asia prikupili mnogo javno dostupnih književnih i modernih kineskih podataka u ranim fazama, izvorni podaci ne mogu se izravno koristiti. Čišćenje podataka potrebno je provesti kako bi se normalizirali podaci iz različitih izvora, različitih formata, kao iinterpunkcije pola širine, kao sredstvo za minimiziranje smetnji nevažećih podataka na obuci modela. Na taj se način dodatno smanjuju stvarni dostupni visokokvalitetni podaci.  

Prema Shuming Ma, istraživaču u Microsoft Research Asia, kako bi smanjili problem rijetkosti podataka, istraživači su proveli veliku količinu rada na sintezi i povećanju podataka, uključujući: 

Prvo, uobičajeni znak poravnanje i proširenje na temelju povećanja veličine podataka vježbanja. Razlikuje se od prijevodi između kineskog i drugih jezika kao što su engleski, francuski, ruski itd., književni kineski i moderni kineski koriste isti skup znakova. Koristeći ovu značajku, istraživači u Tvrtki Microsoft Research Asia koristili su inovativne algoritme kako bi omogućili strojno prevođenje da opozove uobičajene znakove, provede prirodno poravnanje, a zatim se dodatno proširi na riječi, fraze i kratke rečenice, čime sintetiziraju veliku količinu upotrebljivih podataka.  

Drugo, deformirajte strukturu rečenice kako biste poboljšali robusnost strojnog prevođenja. Glede pauze u tekstovima i pjesmama, istraživači su dodali niz varijanti kako bi strojevi bili sveobuhvatniji u učenju drevnih pjesama. Za ljude, čak i kada vide rečenicu koja je nenormalno strukturirana, poput pjesme segmentirane u linije temeljene na ritmu, a ne punim rečenicama, još uvijek mogu sastaviti dijelove i razumjeti je. No, za model prevođenja koji nikada prije nije vidio takvu segmentaciju, vjerojatno će biti zbunjen. Stoga transformacija formata podataka ne samo da može proširiti količinu podataka o osposobljavanju, već i poboljšati robusnost osposobljavanja modela prevođenja.  

Treće, provedite tradicionalnu i pojednostavljenu obuku za prevođenje likova kako biste povećali prilagodljivost modela. Na kineskom jeziku tradicionalni likovi postoje i na književnom i na modernom kineskom jeziku. Kada su istraživači trenirali model, kako bi poboljšali prilagodljivost modela, ne samo da su iskoristili podatke na pojednostavljenom kineskom, već su dodali i podatke na tradicionalnom kineskom, kao i podatke pomiješane s tradicionalnim i pojednostavljenim znakovima. Dakle, model može razumjeti i tradicionalni i pojednostavljeni sadržaj, što dovodi do točnijih rezultata prijevoda.   

Četvrto, povećajte obuku riječi na stranom jeziku kako biste poboljšali točnost prevođenja. Prilikom prevođenja modernog kineskog u književni kineski, često postoje moderne riječi izvedene iz riječi na stranom jeziku i novih riječi koje se nikada nisu pojavile na drevnom kineskom, kao što su "Microsoft", "računalo", "željeznica velikih brzina" i mnoge druge poput nje. Da bi se bavili ovim pitanjem, istraživači su obučili mali model za prepoznavanje entiteta. Model je prvo preveo značenje riječi izvan entiteta, a zatim ponovno ispunio entitet kako bi se osigurala točnost stroja.'obradu stranih riječi.    

Slika: TOn književni kineski postupak prevođenja

Osim toga, za neformalne stilove pisanja kao što su blogovi, forumi, Weibo i tako dalje, model strojnog prevođenja posebno je obučen za daljnje poboljšanje robusnosti prijevoda između modernog i književnog kineskog jezika.  

Dongdong Zhang je izrazio: "Na temelju trenutnog sustava prevođenja nastavit ćemo obogaćivati skup podataka i poboljšati metodu vježbanja modela kako bismo ga učinili robusnijim i svestranijim. U budućnosti, metoda se ne može koristiti samo za književno kinesko prevođenje, već se može proširiti i na druge scenarije primjene."