Salt la conținutul principal
Translator
Această pagină a fost tradusă automat de serviciul de traducere automată Microsoft Translator. Aflați mai multe

Blogul Microsoft Translator

Statistică Machine traducere-Guest Blog (actualizat cu hârtie suplimentară)

Will Lewis este un manager de program pe echipa Microsoft Translator, care lucrează la calitatea limbii și achiziționarea de date.  Blog-ul de astăzi oaspete este o explicație la nivel înalt de modul în care funcționează motorul:  

Așa mulți dintre voi știu, sub capota Microsoft Translator este alimentat de o statistică Machine traducere (SMT) motor.  Sistemele statistice sunt diferite de cele bazate pe reguli, în care cuvintele "reguli" de cartografiere și fraze de la o limbă la alta sunt învățate de sistem, mai degrabă decât de a fi hand-codificate.  Formarea unui SMT necesită o cantitate mare de date de formare paralele-sperăm de bună calitate și din surse eterogene-și de formare a motorului pe aceste date.  (Prin paralel, ne referăm la o sursă de date în care conținutul pentru o limbă este identic cu conținutul pentru celălalt.)  Motorul învață corespondența dintre cuvinte și expresii într-o singură limbă și cele din alta, care sunt adesea întărite de aparițiile repetate ale acelorași cuvinte și fraze în întreaga contribuție.  De exemplu, în formarea sistemului englez-german să zicem, în cazul în care motorul vede fraza Toate drepturile rezervate pe partea engleză și, de asemenea, anunțurile Alle Rechte vorbehalten pe partea germană, aceasta poate alinia aceste două fraze, și să atribuie o anumită probabilitate la această aliniere.  Aparițiile repetate ale expresiilor sursă și țintă din datele de instruire vor consolida această aliniere.

În general, având date paralele pentru o pereche de limbi înseamnă că putem instrui motoarele în ambele direcții (de exemplu, atât limba engleză-germană, cât și sistemele germano-engleze pot fi instruite pe aceleași fraze de intrare).  Unii dintre voi au avut unele întrebări cu privire la motivul pentru care a fost că am lansat sistemul de limba engleză-spaniolă înainte de a lansat spaniolă-engleză.  Au fost într-adevăr două motive.  În primul rând, limba engleză-spaniolă a fost prima pereche de limbă generală domeniu am lansat.  Eliberarea unei perechi lingvistice ne-a permis să testăm infrastructura înainte de a lansa mai multe.  În al doilea rând, tehnologia pentru limba spaniolă-engleză a fost ușor diferită de cea utilizată pentru limba engleză-spaniolă, și avem nevoie de ceva timp suplimentar pentru a face modificările necesare infrastructurii pentru a găzdui.  În viitor, plănuim să lansăm noi sisteme de traducere în perechi (cu câteva excepții).  Eu nu pot dezvălui ce limbi am planificat în continuare, dar nu se așteaptă unele noi în curând!

Pentru cei dintre voi interesati de discutii tehnice cu privire la motoarele noastre și modul în care acestea funcționează, vă rugăm să consultați unele dintre documentele de cercetatorii care le-a dezvoltat.  Trei documente recente de notă sunt:

Chris Quirk, arul Menezes. Avem nevoie de fraze? Provocarea înțelepciunea convențională în statistică Machine traducere May 2006 New York, New York, Statele Unite ale Americii Procedurile HLT-NAACL 2006

Chris Quirk, arul Menezes. Dependenta Treelet traducere: convergența de Statistică și de exemplu, pe bază de traducere mașină? Martie 2006 Machine traducere 43-65 (fișier atașat)


Chris Quirk, arul Menezes. Utilizarea șabloane de ordine de dependență pentru a îmbunătăți generalitatea în traducere Iulie 2007 Asociația pentru lingvistica computațională

Dependență Treelet traducere convergența statistice și bazate pe exemplu machinetranslation. pdf