Politiskt felaktiga maskiner
Medan vi på maskin översättnings teamet har sett ökande trafik till våra olika erbjudanden under de senaste månaderna, märkte vi en plötslig bula i trafiken igår. Efter att ha vuxit upp på Agatha Christie och Sherlock Holmes, sådana mysterier är oemotståndlig för mig-och ett antal andra folk i laget var lika nyfiken på att ta reda på vad som orsakade denna plötsliga bula. Vi tänkte att IE8 aktivitet/Accelerator, den Messenger bot, Sök översättningar, Office-översättningar var alla visar samma uppåtgående trend som dagarna innan och därmed inte var den särskilda orsaken till denna bula.
Så småningom kunde vi identifiera en potentiell anledning till varför vi såg denna spik. Vår användar gemenskap hittade en underlighet i hur maskin översättnings motorn bearbetade översättningen för flera namn från engelska till tyska. Det förväntades att när motorn översätter namnet på kandidaten av en part till någon från den andra parten, med tanke på den nuvarande politiska atmosfären i upptakten till amerikanska val, att det skulle hamna som nyheter. Även om vi verkligen välkomnar alla nya användare som kom förbi för att kontrol lera detta fenomen ut-vi ville dela med våra användare anledningen till sådana saker verkar hända från tid till annan med statistiskt utbildade maskin översättnings system från oss och andra.
En statistisk maskin översättnings motor är utbildad på partier och massor av parallella data, d.v.s. data som finns i både ett käll språk (t. ex. engelska) och ett målspråk (t. ex. tyska), där källan och målet är översättningar av varandra. Vår motor är utbildad på miljon tals meningar för varje språkpar vi stöder. För att träna på en viss corpus av data-kanske ett stort antal Newswire artiklar på engelska som har översatts till tyska-vi måste först bryta denna Corpus ner i meningar. Efter Corpus är meningen bruten, vi matar de resulterande meningar i en mening Aligner, det enda syftet är att hitta vilka meningar på käll sidan justera med meningar på mål sidan. Detta är ingen trivial uppgift, eftersom en mening på ena sidan kan tänkas anpassa sig till en eller flera meningar på målet (eller möjligen ingen alls!). Den Aligner kommer ibland att göra misstag, och feljusterade en mening med en annan som i själva verket inte är en översättning. Detta kan leda till vissa fel översättningar, särskilt om det finns ord i källan och målet som sällan förekommer. Eftersom vår översättnings motor är statistisk är den mycket beroende av Samförekomst frekvenser mellan ord i käll-och mål data. Om vissa ord är sällan förekommer-folks namn, till exempel, kan bara inträffa ett par gånger över en corpus av miljon tals meningar-bristen på frekvens kan leda till fel översättningar till följd av felaktiga "gissningar" mellan källa och mål (dvs låg sannolikheter som tilldelats särskilda källor och målord). Detta kan leda till några komiska fadäser i vårt översättnings system.
Så, det är hur "maskinen" bestämde sig för att översätta på ett sätt som slutade med att gemenskapen tilldela det till känslan av humor i vårt team. Medan vi fortsätter att arbeta hårt för att säkerställa ordentliga anpassningar, är det att vänta från ett statistiskt system som bygger på miljoner till miljarder ord som en sådan situation skulle kunna upprepa.
Den nuvarande frågan med anpassningen bör nu lösas, men vi uppmanar vår gemenskap av användare att fortsätta att hjälpa oss att identifiera sådana situationer genom att kontakta oss via den här bloggen.
-Vikram