Je to v nádeji
Prekladateľ
Táto stránka bola automaticky preložená službou Prekladač strojového prekladu spoločnosti Microsoft. Dozvedieť sa viac

Microsoft prekladateľ blog

Štatistický strojový preklad-hosť blog (aktualizované s dodatočným papierom)

Will Lewis je programový manažér v tíme Microsoft Translator, ktorý pracuje na kvalite jazyka a získavaní dát.  Dnešný hosť blog je na vysokej úrovni vysvetlenie, ako funguje motor:  

Ako mnohí z vás vedia, pod kapotu Microsoft Translator je poháňaný štatistický stroj Translation (SMT) motora.  Štatistické systémy sú odlišné od pravidla-založené tie v tom, že "pravidlá" mapovanie slov a fráz z jedného jazyka do druhého sa naučil v systéme, skôr než byť ruka-kódované.  Školenie SMT vyžaduje hromadiť veľké množstvo paralelných vzdelávacích dát-dúfajme, že dobrej kvality a z heterogénnych zdrojov-a výcvik motora na tieto dáta.  (Paralelne máme na mysli zdroj dát, kde je obsah pre jeden jazyk rovnaký ako obsah pre ostatné.)  Motor sa dozvie korešpondencie medzi slovami a frázy v jednom jazyku a tie v inej, ktoré sú často zosilnené opakované výskyty rovnaké slová a frázy v celom vstupe.  Napríklad, v odbornej príprave Anglicko-nemecký systém povedzme, ak motor vidí frázu Všetky práva vyhradené na anglickej strane a tiež oznámenia Alle Rechte vorbehalten na nemeckej strane, môže zladiť tieto dve frázy, a priradiť určitú pravdepodobnosť, že toto zarovnanie.  Opakované výskyty zdrojových a cieľových fráz v údajoch o výcviku posilnia Toto zarovnanie.

Všeobecne platí, že s paralelnými dátami pre jazykový pár znamená, že môžeme trénovať motory v oboch smeroch (tj ako angličtina-nemčina a nemčina-anglickej systémy môžu byť vyškolení na rovnaké vstupné vety).  Niektorí z vás mali niekoľko otázok ohľadom toho, prečo to bolo, že sme vydali Anglicko-španielsky systém, ako sme vydali španielsky-anglický.  Tam boli naozaj dva dôvody.  Po prvé, angličtina-španielčina bola prvá všeobecná doména jazyk pár sme vydali.  Uvoľnenie jedného jazyka dvojica nám umožnilo otestovať infraštruktúru, ako sme začali uvoľňovať viac.  Po druhé, technológia pre španielsky-anglický bol mierne odlišný, než sa používa pre angličtinu-španielsky, a potrebujeme nejaký dodatočný čas urobiť potrebné infraštruktúrne zmeny ubytovať.  V budúcnosti plánujeme uvoľniť nové prekladateľské systémy vo dvojiciach (s niekoľkými výnimkami).  Nemôžem odhaliť, aké jazyky máme naplánované ďalšie, ale očakávajú, že niektoré nové čoskoro!

Pre tých z vás záujem o technické diskusie o našich motorov a ako fungujú, pozrite sa na niektoré z dokumentov vedci, ktorí ich vyvinuli.  Tri Nedávne dokumenty z poznámky sú:

Chris quirk, Arul Menezes. Potrebujeme frázy? Spochybnenie konvenčnej múdrosti v štatistickej strojový preklad Máj 2006 New York, New York, Spojené štáty americké Konanie HLT-NAACL 2006

Chris quirk, Arul Menezes. Závislosť Treelet preklad: konvergencia štatistických a príklad-založené strojový preklad? Marec 2006 strojový preklad 43-65 (priložený súbor)


Chris quirk, Arul Menezes. Použitie šablón poradia závislostí na zlepšenie všeobecnosti v preklade Júl 2007 Združenie pre výpočtové lingvistika

Závislosť Treelet preklad konvergencie štatistických a príklad-založené machinetranslation. PDF