Testa översättnings kvalitet: gäst blogg

Bokförd på 2 januari, 2009vid Microsoft Translator

Anand Chakravarty är ett SDET på maskin översättnings teamet för de senaste 2,5 åren, har varit på Microsoft i 8 år, och var den första produkt testare på MT laget (och "fortfarande ha kul med testing MT:-)"). Dagens gäst blogg handlar om att testa översättnings kvalitet.

—————————————————————————————————————

En av de första punkterna som kommer att tänka på, när man talar om att kontrol lera kvaliteten på ett översättnings system, är hur du mäter kvaliteten, eller för att vara exakt, riktigheten i översättningen? Att översätta mellan mänskliga språk med hjälp av datorer är ett område som är nästan halvt sekel gammalt. Området är utmanande nog att även de bästa för närvarande tillgängliga maskin översättnings system inte är nära att få språklig kvalitet som skulle vara helt tillfredsställande.

En del av utmaningen är de många olika data punkter som människan behandlar för att förstå innebörden av talad/skriven text. Det finns syntaxen, parsning, semantik, sammanhanget, de olika, den omordning, som alla, och mer, gå in för att förstå en mening. Och detta är bara meningen i 1 språk. Nu överväga att tillämpa allt för att återuppbygga meningen på ett annat språk och göra det lika meningsfullt.

Några exempel kan bidra till att göra denna punkt tydligare. Termen "OS 2008" är ganska entydig. På samma sätt kan man förvänta sig att termen "Val 2008" ska betyda presidentvalet i USA. Men om användaren är från, säg, Kanada, skulle det mer sannolikt hänvisa till de lokala valen där.

En mer allmän, och därmed vanligare, exempel är en mening som "anteckningen var fel". Är ordet "anteckning" en hänvisning till ett informativt budskap eller till en musikalisk term? Den korrekta översättningen beror på sammanhanget. Använd mer kontext, och dina chanser att få en mer korrekt översättning förbättras. Detta emellertid kommer på en kosta: mer sammanhanget som systemet försöker att erhålla, det långsammare dess kapacitet. Smarta sändnings beslut innebär att göra rätt avvägning mellan att förbättra korrektheten i översättningen och leverera ett fungerande översättnings resultat till användarna. Naturligtvis är båda viktiga. Nyckeln är att förstå var du direkt insatser på förbättring beroende på hur användbart resultatet är för användaren.

Detta blir särskilt intressant när du översätter dokument eller webb sidor, i stället för bara enskilda meningar. Låt oss säga att en översättning begäran har mottagits för en webb sida som innehåller 100 meningar. Beroende på översättnings systemets arkitektur kan dessa meningar alla gå till en process, eller fördelas över flera processer/maskiner. Hursomhelst, det är uppenbart att den tid det tar att översätta denna sida i sin helhet är proportionell mot den längsta tid det tar att översätta en mening. Hur länge spenderar vi översätta en mening innan den investerade tiden blir skadligt för användarens tid? I jakten på den bästa översättningen, kan vi hamna blockerar användaren från att få något informativ som svar på deras översättning begäran. Nyttan av systemet styrs därför av beslut som fattas för att balansera språklig kvalitet och applikations prestanda.

Med Microsoft Translator-produkten finns det ytterligare inslag i vår tvåspråkiga Viewer, något unikt bland offentligt tillgängliga översättnings produkter. Den stöder parallell text markering, synkroniserad rullning och presenterar sidan/sidorna med progressiv rendering. Detta tillför ytterligare ett lager till vad våra användare ser, och därmed ett annat lager för att polera och finish.

Under de kommande veckorna hoppas vi kunna ge dig mer information om specifika områden som var och testas för att leverera ett översättnings system av högsta kvalitet. Känn dig fri att posta några frågor du har om denna fråga, något du alltid velat fråga:-), i kommentarerna.

Microsoft Translator blogg