Preskoči na glavno vsebino
Prevajalec
Ta stran je bila samodejno prevedena s strojno prevajanje Microsoft Translator storitev. Preberite več

Microsoftov prevajalec blog

Politično nepravilni stroji

Medtem ko smo na strojno prevajanje ekipa so videli povečanje prometa na naše različne ponudbe v zadnjih nekaj mesecih, smo opazili nenadno Čvoruga v prometu včeraj. Ob odraščali na Agatha Christie in Sherlock Holmes, kot so skrivnosti nepremagljiv za mene-in število drugih ljudi na ekipo so bili prav tako radovedni, da ugotovite, kaj je povzročilo to nenadno Čvoruga. Ugotovili smo, da IE8 dejavnost/Pospešiti, je Messenger bot, Prevodi iskanja, Pisarniški prevodi so bili vsi prikazujejo isti trend navzgor kot dnevi pred in zato niso bili posebni razlog za to bump.

Sčasoma smo lahko identificirali en potencialni razlog, zakaj smo videli to konico. Naša skupnost uporabnikov je našla nenavadno, kako je strojno prevajanje motor predelal prevod za več imen iz angleščine v nemščino. Pričakovati je bilo, da ko motor prevaja ime kandidata ene stranke nekomu iz druge stranke, glede na sedanjo politično ozračje v vodi do volitev v ZDA, da bi se končalo kot novica. Medtem ko smo zagotovo Dobrodošli vsi novi uporabniki, ki je prišel, da preveri ta pojav ven-smo želeli deliti z našimi uporabniki razlog, zakaj takšne stvari se zdi, da se zgodi od časa do časa s statistično usposobljeni strojno prevajanje sistemov od nas in drugih.

Stroj za prevajanje statističnih strojev je usposobljen za sklope in veliko vzporednih podatkov, to je podatkov, ki obstajajo v izvirnem jeziku (npr. v angleščini) in ciljnem jeziku (npr. nemščini), kjer sta vir in cilj drug drugega prevajanja. Naš motor je usposobljen za milijone stavkov za vsak jezikovni par, ki ga podpiramo. Da bi vlak na določenem corpus podatkov-morda veliko število Newswire člankov v angleškem jeziku, ki so bili prevedeni v nemško-Najprej moramo prekiniti, da corpus navzdol v stavke. Po corpus je stavek zdrobljen, smo krmo, ki izhajajo stavki v stavek aligner, edini namen, ki je, da bi našli, kaj stavki na strani vira uskladiti z stavki na ciljni strani. To ni nepomembno nalogo, saj lahko stavek na eni strani razumljivo uskladiti z enim ali več stavkov na ciljni (ali morda sploh sploh!). Poravnjavač bo včasih napake, in neusklajeni en stavek z drugo, da je v resnici ni prevod. To lahko privede do nekaterih mistranslations, še posebej, če obstajajo besede v viru in cilj, ki se redko pojavljajo. Ker je naš Prevajalski motor je statistično, je zelo odvisna od co-pojav frekvenc med besedami v izvornih in ciljnih podatkov. Če se nekatere besede redko pojavljajo-imena ljudi, na primer, se lahko pojavijo le nekajkrat čez corpus milijonov stavkov-pomanjkanje frekvence lahko privede do anglikanski, ki izhajajo iz nepravilnih "uprizes" med virom in cilj (tj., nizka sposobnosti, dodeljene določenim virom in ciljnim besedam). To lahko privede do nekaterih komičnih gaffes v našem Prevajalski sistem.

Torej, to je, kako "stroj" odločila, da bo prevedla na način, ki je končal s skupnostjo pripisala smisel za humor naše ekipe. Medtem ko smo še naprej trdo delati, da se zagotovi pravilno alignments, je treba pričakovati od statističnega sistema, ki je zgrajen na milijone na milijarde besed, da bi lahko tak položaj ponoviti.

Trenutno vprašanje s poravnavo je treba zdaj rešiti, vendar pozivamo naše skupnosti uporabnikov, da nam pomagajo identificirati vse takšne situacije, ki jih kontaktirate nas preko tega bloga.

-Vikram

Vikram dendi Interesenti poslovne strategije & načrtovanje izdelkov za Microsoft Translator Team