Vrijeme Jeli na glavniju
Prevoditelj
Ova stranica automatski je prevedena pomoću servisa za strojno prevođenje tvrtke Microsoft Translator. Saznajte više

Blog Microsoft prevoditelj

Statistički stroj prijevod – gost blog (ažuriran s dodatnim papirom)

Will Lewis je upravitelj programa u programu Microsoft Translator, radi na kvaliteti jezika i stjecanju podataka.  Današnji gost blog je visoka razina objašnjenja kako motor radi:  

Kao što mnogi od vas znaju, ispod haube Microsoft Translator napaja modul statističkog strojnog prijevoda (SMT).  Statistički sustavi razlikuju se od onih koji se temelje na pravilu u tome da se "pravila" preslikavanje riječi i fraze s jednog jezika na drugi naučiti sustavu umjesto da se ručno kodira.  Obuka za SMT zahtijeva gomilanje velike količine paralelnih podataka o osposobljavanju – nadamo se dobroj kvaliteti i heterogenim izvorima – i osposobljavanju motora na te podatke.  (Paralelno mislimo na izvor podataka gdje je sadržaj za jedan jezik jednak sadržaju za drugi.)  Motor uči dopisnice između riječi i fraza na jednom jeziku, a one u drugom, koje su često ojačane ponovljenim pojavom istih riječi i fraza tijekom unosa.  Na primjer, u treningu Engleski-Njemački sustav, recimo, ako motor vidi frazu Sva prava pridržana na engleskom dijelu i također primjećuje Da. na Njemaèkoj strani, može poravnati te dvije fraze i dodijeliti neku vjerojatnost ovom poravnanju.  Ponovljena pojavljivanja izvorišnih i ciljanih fraza u podacima o osposobljavanju ojačat će samo to poravnanje.

Općenito, imati paralelne podatke za Jezični par znači da možemo trenirati motore u oba smjera (tj., i Engleski-Njemački i njemački-engleski sustavi mogu se trenirati na istim ulaznim rečenicama).  Neki od vas su imali neka pitanja o tome zašto smo oslobodili Engleski-Španjolski sustav prije nego što smo objavili Španjolski Engleski.  Bilo je stvarno dva razloga.  Prvo, Engleski-Španjolski je bio prvi par općih jezika koji smo objavili.  Oslobađajući jedan jezični par nam je omogućio da testiramo infrastrukturu prije nego što smo počeli objavljivati više.  Drugo, tehnologija za Španjolski-Engleski je malo drugačija od one koja se koristi za Engleski-Španjolski, a mi trebamo malo dodatnog vremena za napraviti potrebne infrastrukturne promjene u smještaj.  U budućnosti planiramo objaviti nove prevoditeljske sustave u parovima (s nekoliko iznimaka).  Ne mogu otkriti koje jezike smo sljedeći planirali, ali očekujemo neke nove uskoro!

Za one koji su zainteresirani za tehničke rasprave o našim motorima i kako oni rade, molimo pogledajte neke od novina od strane istraživača koji su ih razvili.  Tri nedavna dokumenta su:

Chris Quirk, Arul Menezes. Trebamo li fraze? Osporavanja konvencionalne mudrosti u prijevodu u statističkom stroju Svibanj 2006 New York, New York, Sjedinjene Američke Države Postupak HLT-NAACL 2006

Chris Quirk, Arul Menezes. Ovisnost Treelet prijevod: konvergencija statističkog i primjer-based strojno prevođenje? Ožujak 2006 stroj prijevod 43-65 (priložena datoteka)


Chris Quirk, Arul Menezes. Korištenje predložaka redoslijeda ovisnosti za poboljšanje Generalnosti u prijevodu Srpanj 2007 Udruženje za Računacijsku lingvistiku

Usklađenost Treelet prijevod konvergencija statističkog i primjer-based strojno. PDF