Gå til hovedinnhold
Oversetter
Denne siden er automatisk oversatt av Microsoft Translator sin maskinoversettelsestjeneste. få mer informasjon

Microsoft oversetter blogg

Politisk ukorrekt maskiner

Mens vi på Machine Translation team har vært å se økende trafikk til våre ulike tilbud i løpet av de siste månedene, la vi merke til en plutselig Bump i trafikken i går. Etter å ha vokst opp på Agatha Christie og Sherlock Holmes, slike mysterier er uimotståelig for meg-og en rekke andre folk på laget var like nysgjerrig for å finne ut hva som forårsaket denne plutselige Bump. Vi skjønte at IE8 aktivitet/Accelerator, Messenger bot, Søk oversettelser, Office-oversettelser var alle viser den samme oppadgående trenden som dagene før, og dermed var ikke den spesifikke årsaken til denne Bump.

Til slutt var vi i stand til å identifisere en potensiell grunn til at vi så denne pigg. Vår bruker fellesskapet fant en særhet i hvordan maskinen oversettelsen motoren behandlet oversettelsen for flere navn fra engelsk til tysk. Det var å forvente at når motoren oversetter navnet på kandidaten av en part til noen fra den andre parten, gitt den nåværende politiske atmosfæren i oppkjøringen til amerikanske valg, at det ville ende opp som nyheter. Stund vi gjerne velkommen alle ny brukernes det kom av å sjekk denne fenomenet ut – vi savnet å aksje med våre brukernes anledningen hvorfor slik saker gjøre inntrykk av å være finne sted fra tid til annen med statistisk utdannet apparat oversettelse systemer fra oss og andre.

En statistisk maskin oversettelse motoren er opplært på mange og mange parallelle data, det vil si data som finnes i både et kilde språk (f. eks engelsk) og et målspråk (f. eks tysk), hvor kilden og målet er oversettelser av hverandre. Vår motor er trent på millioner av setninger for hvert språk par vi støtter. For å trene på en bestemt Corpus av data-kanskje et stort antall Newswire artikler på engelsk som har blitt oversatt til tysk-vi først må bryte det Corpus ned i setninger. Etter at Corpus er straffen brutt, mater vi de resulterende setningene i en setning aligner, det eneste formål som er å finne hva setninger på kildesiden align med setninger på målet side. Dette er ingen triviell oppgave, siden en setning på den ene siden kan tenkes justere med en eller flere setninger på målet (eller muligens ingen i det hele tatt!). Aligner vil noen ganger gjøre feil, og misalign en setning med en annen som er faktisk ikke en oversettelse. Dette kan føre til noen mistranslations, spesielt hvis det er ord i kilden og målet som sjelden forekommer. Siden vår oversettelse motoren er statistisk, er det svært avhengig av co-forekomst frekvenser mellom ord i kilden og mål data. Hvis enkelte ord sjelden forekommer, kan navn på personer, for eksempel, bare forekomme noen få ganger på tvers av en rekke millioner setninger – mangelen på frekvens kan føre til mistranslations som følge av feil "gjetninger" mellom kilde og mål (dvs. lav sannsynligheter tildelt bestemte kilde-og mål ord). Dette kan føre til noen komiske gaffes i vårt Oversettelses system.

Så, det er hvordan "maskinen" besluttet å oversette på en måte som endte opp med samfunnet tillegge det til sans for humor av teamet vårt. Mens vi fortsetter å jobbe hardt for å sikre riktig justering, er det å forvente fra et statistisk system som er bygget på millioner til milliarder av ord som en slik situasjon kan gjenta.

Den nåværende problemet med justeringen skal nå løses, men vi oppfordrer vårt fellesskap av brukere til å holde hjelpe oss med å identifisere slike situasjoner ved å kontakte oss gjennom denne bloggen.

-Hva er det?

Vikram dendi leder forretningsstrategi & produktplanlegging for Microsoft Translator-teamet