Preskoči na glavno vsebino
Prevajalec
Ta stran je bila samodejno prevedena s strojno prevajanje Microsoft Translator storitev. Preberite več

Microsoftov prevajalec blog

Statistični strojno prevajanje-Guest blog (posodobljeno z dodatnim papirjem)

Will Lewis je upravitelj programa v ekipi Microsoft Translator, ki dela na kakovosti jezika in pridobivanju podatkov.  Današnji gost blog je na visoki ravni razlaga, kako deluje motor:  

Kot mnogi veste, pod pokrovom Microsoft Translator je powered by a statistični strojno prevajanje (SMT) motor.  Statistični sistemi se razlikujejo od tistih, ki temeljijo na pravilih, v tem, da se "pravila" kartiranje besede in fraze iz enega jezika v drugega, ki jih je naučil sistem, ne pa ročno kodirani.  Usposabljanje SMT zahteva amassing veliko količino vzporednih podatkov usposabljanja-upajmo, da dobre kakovosti in iz heterogenih virov-in usposabljanje motorja na teh podatkov.  (Vzporedno s tem mislimo na vir podatkov, kjer je vsebina za en jezik enaka vsebini za drugo.)  Motor se nauči korespondenti med besedami in frazami v enem jeziku in tistimi v drugi, ki so pogosto okrepljeni s ponavljajočimi se pojavami istih besed in besednih zvez skozi vložek.  Na primer, pri usposabljanju angleško-nemški sistem recimo, če motor vidi frazo Vse pravice pridržane na angleški strani in tudi obvestila Alle Rechte vorbehalten na nemški strani, lahko poravna ta dva besedne zveze, in dodeliti nekaj verjetnosti za to poravnavo.  Ponavljajoče se pojavitve izvornih in ciljnih stavkov v podatkih o usposabljanju bodo le okrepile to poravnavo.

Na splošno, ob vzporednih podatkov za jezik par pomeni, da lahko vlak motorjev v obeh smereh (tj. tako angleško-nemški in nemško-angleški sistemi se lahko usposabljajo na istih vhodnih stavkov).  Nekateri ste imeli nekaj vprašanj v zvezi s tem, zakaj je bilo, da smo izdali angleško-španski sistem, preden smo izdali špansko-angleško.  Res sta bila dva razloga.  Prvič, angleščina-španščina je bila prva splošna domena jezik par smo sproščeni.  Izpust nedoločni zaimek jezik par omogučiti nas v skušnja infrastruktura spredaj mi starter izpust več.  Drugič, tehnologija za špansko-angleški je bila nekoliko drugačna od tiste, ki se uporabljajo za angleško-španski, in potrebujemo nekaj dodatnega časa, da naredimo potrebne infrastrukturne spremembe za sprejem.  V prihodnosti načrtujemo sprostitev novih prevajalskih sistemov v parih (z nekaj izjemami).  Ne morem razkriti, katere jezike smo načrtovali naslednje, vendar pa pričakujejo nekaj novih kmalu!

Za tiste, ki vas zanimajo tehnične razprave v zvezi z našimi motorji in kako delujejo, se obrnite na nekatere dokumente, ki jih raziskovalci, ki so jih razvili.  Trije nedavni dokumenti note so:

Chris quirk, Arul Menezes. Ali potrebujemo fraze? Izpodbijanje konvencionalne modrosti v statističnem strojno prevajanje Maj 2006 New York, New York, ZDA Postopki HLT-NAACL 2006

Chris quirk, Arul Menezes. Odvisnost Treelet prevajanje: zbliževanje statističnih in na primer temelji strojno prevajanje? Marec 2006 strojno prevajanje 43-65 (priloženo datoteko)


Chris quirk, Arul Menezes. Uporaba predloge za odvisnost za izboljšanje Posplošnosti v prevodu Julij 2007 Združenje za računalniško jezikoslovje

Odvisnost Treelet prevod zbliževanje statističnih in na primer temelji machinetranslation. pdf