Fara í aðalefni
Þýðandi
Þetta page hefur verið sjálfkrafa þýtt með því að Microsoft Þýðandi er vél þýðing þjónustu. Læra meira

Microsoft Þýðandi Blogg

Tölfræðilegar Vél Þýðing – Gestur Blogg (Uppfært með fleiri pappír)

Mun Lewis er forrit framkvæmdastjóri á Microsoft Þýðandi lið, að vinna á tungumáli gæði og gögn kaup. Í dag er gestur blogg er mikil skýringu á því hvernig vélin starfar:  

Eins og mörg ykkar vita, undir vélarhlífina Microsoft Þýðandi er knúið með Tölfræðilegar Vél Þýðing (SMT) vél. Tölfræðilegar kerfi eru öðruvísi en reglu byggir sjálfur í að "reglurnar" kortlagning orð og setningar frá eitt tungumál til annars eru lært af kerfinu frekar en að vera hönd-dulmáli. Þjálfun í SMT þarf að koma sér mikið magn af samhliða þjálfun gögn—vonandi góða og frá ólíkum áttum—og þjálfun vél á að gögn. (Með samhliða, við meina uppspretta gögn þar sem efni fyrir eitt tungumál er það sama og efni fyrir aðra.) Vélin lærir correspondences milli orð og setningar í einu tungumáli og þeir í annað, sem eru oft styrkt með endurteknum tilfelli af sama orð og setningar allan inntak. Til dæmis, í þjálfun ensku-þýska kerfi við skulum segja, ef vélin sér setningu Allt réttindi frátekið á ensku hlið og einnig tilkynningar Ofnæmi próf Rechte vorbehalten á þýsku hlið, það kann að samræma þessar tvær setningar, og úthluta sumir líkur á að þetta leikkerfið. Endurtekin tilfelli af uppruna og miða setningar í þjálfun gögn mun aðeins styrkja þetta leikkerfið.

Yfirleitt, hafa samhliða gögn fyrir tungumál par þýðir að við getum lest vél í báðar áttir (ég., bæði ensku-þýsku og þýska-ensku kerfi getur verið þjálfaðir á sama inntak setningar). Sumir þú hefðir nokkrar spurningar um af hverju það var sem við út ensku-spænsku kerfi áður en við út spænsk-ensku. Það voru í raun tveimur ástæðum. Fyrst, English-spænsku var fyrsta almennt ríki tungumál par við út. Sleppa eitt tungumál par leyft okkur að prófa innviði áður en við byrjuðum að gefa út fleiri. Í öðru lagi, tækni til að spænsk-ensku var örlítið öðruvísi en sem notuð fyrir ensku-spænska, og við þurfum fleiri tíma til að gera hið nauðsynlega infrastructural breytingar að mæta. Í framtíðinni, við ætlum að sleppa nýja kerfi þýðing í pör (með nokkra undantekningar). Ég get ekki opinberað hvaða tungumál sem við höfum skipulagt næsta, en ekki búast sumir nýja leið!

Fyrir þá sem hafa áhuga á tæknilega umræður um okkar vél og hvernig þeir vinna, skaltu vísa til að sumir af blöðunum um vísindamenn sem þróað þær. Þrjú síðustu skjölin huga eru:

Chris Duttlunga, Arul Menezes. Þurfum við setningar? Krefjandi hefðbundnum visku í Tölfræðilegar Vél Þýðing Maí 2006 New York, í New York, USA Málsmeðferð HLT-NAACL 2006

Chris Duttlunga, Arul Menezes. Meðvirkni Treelet Þýðing: samruni tölfræði og dæmis byggir vél þýðing? Mars árið 2006 Vél Þýðing 43-65 (Fylgir skrá)


Chris Duttlunga, Arul Menezes. Með því að nota Háð Þess Mótin til að Bæta Almenn í Þýðingu Júlí 2007 Félag fyrir Útreikninga Málvísindum

Meðvirkni Treelet Þýðing samruni tölfræði og dæmis byggir machinetranslation.pdf