Test af oversættelseskvalitet: gæste blog
Anand Chakravarty er et SDET på maskin oversættelses teamet i de sidste 2,5 år, har været hos Microsoft i 8 år, og var den første produkttester på MT-teamet (og "stadig har det sjovt med at teste MT:-)"). Dagens gæst blog handler om test oversættelse kvalitet.
—————————————————————————————————————
Et af de første punkter, der kommer til at tænke på, når vi taler om at kontrollere kvaliteten af et oversættelsessystem, er, hvordan du måler kvaliteten, eller for at være præcis, nøjagtigheden af oversættelsen? Oversættelse mellem menneskelige sprog ved hjælp af computere er et område, der er næsten halvt århundrede gammelt. Området er udfordrende nok til, at selv de bedste maskinoversættelsessystemer, der findes i øjeblikket, ikke er tæt på at opnå sproglig kvalitet, som ville være helt tilfredsstillende.
En del af udfordringen er de mange forskellige datapunkter, som mennesker behandler for at forstå betydningen af talt/skrevet tekst. Der er syntaksen, parsing, semantik, sammenhæng, det er et flertydig, en genbestilling, som alle, og mere, gå ind i forståelsen af en sætning. Og det er kun sætningen i 1 sprog. Overvej nu at anvende det hele til at genopbygge sætningen på et andet sprog og gøre den lige så meningsfuld.
Nogle eksempler kan bidrage til at gøre dette punkt klarere. Udtrykket ' Olympiske Lege 2008 ' er ret utvetydigt. På samme måde kunne man forvente, at udtrykket» valg 2008 «betyder præsidentvalget i USA. Men hvis brugeren er fra, siger, Canada, ville det mere sandsynligt henvise til de lokale valg der.
Et mere generelt og dermed mere almindeligt eksempel er en sætning som "noten var forkert". Er ordet "note" en henvisning til en informativ besked eller til en musikalsk term? Den korrekte oversættelse afhænger af konteksten. Brug mere kontekst, og dine chancer for at få en mere præcis oversættelse forbedres. Dette kommer dog til en pris: jo mere sammenhæng systemet forsøger at opnå, jo langsommere dens ydeevne. Intelligente shipping beslutninger indebærer at skabe den rette balance mellem at forbedre nøjagtigheden af oversættelsen og levere et brugbart oversættelsesresultat til brugerne. Selvfølgelig er begge vigtige. Den nøglen er hen til opfatte der hvor jer lede indsats henne ved forbedring afhænger oven på hvor nyttig den følge er hen til den bruger.
Dette bliver særligt interessant ved oversættelse af dokumenter eller websider, i stedet for blot individuelle sætninger. Lad os sige en oversættelse anmodning er blevet modtaget for en web-side, der indeholder 100 sætninger. Afhængigt af arkitekturen i oversættelsessystemet, disse sætninger kan alle gå til én proces, eller fordeles på tværs af flere processer/maskiner. Uanset hvad, er det klart, at den tid, det tager at oversætte denne side i sin helhed, er proportional med den maksimale tid, det tager at oversætte en sætning. Hvor lang tid bruger vi på at oversætte en sætning, før den investerede tid bliver skadelig for brugerens tid? I jagten på den bedste oversættelse, kan vi ende med at blokere brugeren fra at få noget informativ som svar på deres oversættelse anmodning. Systemets anvendelighed styres således af beslutninger, der træffes for at skabe balance mellem sproglig kvalitet og applikations præstation.
Med Microsoft Translator-produktet er der den ekstra funktion i vores tosprogede Viewer, noget unikt blandt offentligt tilgængelige oversættelses produkter. Det understøtter parallel tekst fremhævning, synkroniseret rulning og præsenterer side (r) med progressiv rendering. Dette tilføjer et andet lag til, hvad vores brugere ser, og dermed et andet lag til polering og finish.
I de kommende uger, håber vi at give dig flere detaljer om specifikke områder, der var og bliver testet til at levere en top-kvalitet oversættelsessystem. Du er velkommen til at skrive eventuelle spørgsmål, du har om denne sag, noget du altid har ønsket at spørge:-), i afsnittet kommentarer.