Overslaan naar hoofdinhoud
Translator
Deze pagina is automatisch vertaald door de machine vertaalservice van Microsoft Translator. Meer informatie

Microsoft Translator Blog

Politiek inCorrecte machines

Terwijl we bij de machine translation team zijn het zien van toenemende verkeer naar onze verschillende aanbiedingen in de afgelopen paar maanden, zagen we een plotselinge hobbel in het verkeer gisteren. Na opgegroeid op Agatha Christie en Sherlock Holmes, zoals mysteries zijn onweerstaanbaar voor mij-en een aantal andere mensen op het team waren net zo nieuwsgierig om erachter te komen wat de oorzaak van deze plotselinge bult. We dachten dat de IE8 activiteit/AcceleratorDe Messenger bot, Zoek vertalingen, Office vertalingen waren allemaal met dezelfde opwaartse trend als de dagen voor en dus waren niet de specifieke reden voor deze bult.

Uiteindelijk waren we in staat om een mogelijke reden waarom we zagen deze Spike te identificeren. Onze gebruikersgemeenschap vond een eigenaardigheid in hoe de machine vertaalmotor de vertaling voor verscheidene namen van het Engels aan het Duits verwerkte. Het was te verwachten dat wanneer de motor vertaalt de naam van de kandidaat van een partij aan iemand van de andere partij, gezien de huidige politieke sfeer in de aanloop naar de Amerikaanse verkiezingen, dat het zou eindigen als nieuws. Hoewel we zeker blij met alle nieuwe gebruikers die kwam om dit fenomeen te controleren-we wilden delen met onze gebruikers de reden waarom dergelijke dingen lijken te gebeuren van tijd tot tijd met statistisch opgeleide machine translation systemen van ons en anderen.

Een statistische machine vertaling motor is opgeleid op veel en veel parallelle gegevens, dat is, gegevens die bestaat in zowel een brontaal (bijv. Engels) en een doeltaal (bijv. Duits), waar de bron en het doel zijn vertalingen van elkaar. Onze motor is getraind op miljoenen zinnen voor elk taalpaar dat we ondersteunen. Om te trainen op een bepaald corpus van gegevens-misschien een groot aantal artikelen van Newswire in het Engels die zijn vertaald in het Duits-moeten we eerst dat corpus neer te breken in zinnen. Nadat het corpus is gebroken zin, we voeden de resulterende zinnen in een zin aligner, het enige doel van die is om te vinden wat zinnen op de bron kant af te stemmen met zinnen op de doel kant. Dit is geen onbelangrijke taak, aangezien een zin aan één kant denkbaar met één of meerdere zinnen op het doel zou kunnen richten (of misschien helemaal geen!). De aligner zal soms fouten maken, en een zin verkeerd uitlijnen met een ander dat is in feite niet een vertaling. Dit kan leiden tot een aantal verkeerde vertalingen, vooral als er woorden in de bron en het doelwit die niet vaak voorkomen. Aangezien onze vertaalmotor statistisch is, is het zeer afhankelijk van co-voorkomen frequenties tussen woorden in de bron en doel gegevens. Als bepaalde woorden niet vaak voorkomen-namen van mensen, bijvoorbeeld, kan slechts een paar keer voorkomen in een corpus van miljoenen zinnen-het gebrek aan frequentie kan leiden tot verkeerde vertalingen als gevolg van onjuiste "gissingen" tussen bron en target (dwz, lage waarschijnlijkheid toegewezen aan bepaalde bron-en doelwoorden). Dit kan leiden tot een aantal komische blunders in ons vertaalsysteem.

Dus, dat is hoe de "machine" besloten te vertalen op een manier die eindigde met de Gemeenschap toe te schrijven aan het gevoel voor humor van ons team. Hoewel we blijven hard werken om een goede uitlijning te garanderen, is het te verwachten van een statistisch systeem dat is gebouwd op miljoenen tot miljarden woorden die een dergelijke situatie zou kunnen herhalen.

Het huidige probleem met de aanpassing moet nu worden opgelost, maar we dringen er bij onze Gemeenschap van gebruikers te blijven helpen ons te identificeren dergelijke situaties door contact met ons op via deze blog.

-Vikram

Vikram Dendi leads Business Strategy & product planning voor het Microsoft Translator team