Tõlkekvaliteedi testimine: Külalisblogi
Anand Chakravarty on SDET masintõlke meeskond viimase 2,5 aastat, on olnud Microsoft for 8 aastat, ja oli esimene toode Tester MT Team (ja "ikka lõbus testides MT:-)"). Tänane külalisblogi on tõlkekvaliteedi testimine.
—————————————————————————————————————
Üks esimesi punkte, mis tuleb meeles, rääkides tõlke süsteemi kvaliteedi kontrollimist, kuidas mõõta kvaliteeti, või olla täpne, tõlke täpsust? Inimeste keelte tõlkimine arvutite abil on väli, mis on peaaegu poole sajandi vana. Piirkond on piisavalt keeruline, et isegi parimad praegu kättesaadavad masintõlke süsteemid ei ole keelelise kvaliteedi saamiseks lähedased, mis oleksid täielikult rahuldavad.
Osa väljakutsest on palju erinevaid andmepunkte, mida inimesed töötlevad, et mõista, mida tähendab suuline/kirjalik tekst. Seal on süntaksi, sõelumine, semantika, kontekst, täpsustus, ümbertellimine, kõik, ja veel, minna mõista lauset. Ja see on lihtsalt lause 1 keeles. Nüüd kaaluge kõigi selle rakendamist, et taastada lause mõnes muus keeles ja muuta see võrdselt tähendusrikkaks.
Mõned näited võivad aidata seda punkti selgemaks muuta. Termin "olümpiamängud 2008" on üsna ühemõtteline. Samuti võib eeldada, et sõna "valimised 2008" tähendab presidendivalimisi USAs. Siiski, kui kasutaja on pärit Kanadast, oleks tõenäolisem, et see viitab seal olevatele kohalikele valimistele.
Üldisem, ja seega rohkem levinud, näiteks on lause nagu "Märkus oli vale". Kas sõna "Note" on viide informatiivse sõnumi või muusikalise Termini kohta? Õige tõlge sõltub kontekstist. Kasutage rohkem konteksti ja oma võimalusi saada täpsem tõlge parandada. See on siiski kulu: mida rohkem konteksti süsteem üritab saada, aeglasem oma jõudlust. Nutikad saatmisotsused hõlmavad õige tasakaalu parandamist tõlke täpsuse parandamise ja kasutajatele toimivat tõlkimise tulemuse saavutamise vahel. Muidugi, mõlemad on tähtsad. Võti on mõista, kus te otsene jõupingutusi parandada sõltuvalt sellest, kui kasulik on lõpptulemus kasutajale.
See muutub eriti huvitavaks dokumentide või veebilehtede tõlkimisel, mitte ainult individuaalsete lausete asemel. Oletame, et tõlke taotlus on laekunud veebilehel, mis sisaldab 100 lauset. Sõltuvalt tõlkesüsteemi ülesehitusest võivad need laused kõik minna ühte protsessi või jaotada mitme protsessi/masina vahel. Mõlemal juhul on selge, et selle lehe tervikuna tõlkimiseks kuluv aeg on proportsionaalne karistuse tõlkimiseks võetud maksimumajaga. Kui kaua me kulutame karistuse tõlkimist enne, kui investeeritud aeg muutub kasutaja aega kahjustavalt? Parima tõlke jälitamine võib lõpuks blokeerida kasutaja saada midagi informatiivne vastuseks nende tõlge taotluse. Süsteemi kasulikkust reguleerivad seega otsused, mida tehakse keelelise kvaliteedi ja rakenduste jõudluse tasakaalustamiseks.
Mis Microsoft Translator toode, seal on lisafunktsioone meie kakskeelne Viewer, midagi unikaalselt avalikult kättesaadav tõlge tooteid. See toetab paralleelset teksti esiletõstmist, sünkroniseeritud kerimist ja esitab lehekülje (d) progressiivse renderdamisega. See lisab teise kihi, mida meie kasutajad näevad, ja sellest tulenevalt teine kiht Poola ja viimistlus.
Järgnevatel nädalatel loodame, et toome teile üksikasjalikuma teabe konkreetsete valdkondade kohta, mis olid ja mida testitakse, et saata kvaliteetseid tõlkesüsteemi. Julgelt postitada küsimusi teil on selles küsimuses, midagi, mida alati tahtnud küsida:-), kommentaaride jaotises.