Overslaan naar hoofdinhoud
Translator
Deze pagina is automatisch vertaald door de machine vertaalservice van Microsoft Translator. Meer informatie

Microsoft Translator Blog

Statistische machine translation-Guest Blog (bijgewerkt met extra papier)

Will Lewis is een programmamanager op de Microsoft Translator team, werken aan taalkwaliteit en data-acquisitie.  Vandaag gast blog is een hoog niveau uitleg van hoe de motor werkt:  

Zoals velen van jullie weten, onder de motorkap Microsoft Translator wordt aangedreven door een statistische machine translation (SMT) motor.  Statistische systemen zijn anders dan op regels gebaseerde degenen in dat de "regels" Mapping woorden en zinnen van de ene taal naar de andere worden geleerd door het systeem in plaats van met de hand gecodeerd.  De opleiding van een SMT vereist het vergaren van een grote hoeveelheid parallelle trainingsgegevens-hopelijk van goede kwaliteit en van heterogene bronnen-en de opleiding van de motor op die gegevens.  (Door parallel, bedoelen we een bron van gegevens waar de inhoud voor een taal is hetzelfde als de inhoud voor de andere.)  De motor leert de correspondentie tussen woorden en uitdrukkingen in één taal en die in een andere, die vaak door herhaalde voorkomen van de zelfde woorden en de uitdrukkingen door de input worden versterkt.  Bijvoorbeeld, in de opleiding van het Engels-Duitse systeem laten we zeggen, als de motor ziet de zin Alle rechten voorbehouden aan de Engelse kant en merkt ook Alle Rechte vorbehalten aan de Duitse kant, kan het deze twee uitdrukkingen aanpassen, en één of andere waarschijnlijkheid aan deze groepering toewijzen.  Herhaalde voorvallen van de bron-en doel zinnen in de trainingsgegevens zullen deze uitlijning alleen maar versterken.

In het algemeen, met parallelle gegevens voor een taalpaar betekent dat we kunnen motoren trainen in beide richtingen (dat wil zeggen, zowel de Engels-Duitse en de Duits-Engels systemen kunnen worden opgeleid op dezelfde input zinnen).  Sommigen van u hadden enkele vragen over waarom het was dat we het Engels-Spaanse systeem vrijgegeven voordat we vrijgegeven Spaans-Engels.  Er waren echt twee redenen.  Ten eerste, Engels-Spaans was de eerste algemene domein taalpaar hebben we vrijgegeven.  Het vrijgeven van een taalpaar stond ons toe om de infrastructuur te testen voordat we begonnen met het vrijgeven van meer.  Ten tweede, de technologie voor het Spaans-Engels was iets anders dan die gebruikt worden voor Engels-Spaans, en we hebben wat extra tijd om de nodige infrastructurele veranderingen te doen om tegemoet te komen.  In de toekomst zijn wij van plan om nieuwe vertaalsystemen in paren (met een paar uitzonderingen) vrij te geven.  Ik kan niet onthullen welke talen we hebben gepland volgende, maar verwacht een aantal nieuwe binnenkort!

Voor degenen onder u die geïnteresseerd zijn in technische discussies over onze motoren en hoe ze werken, verwijzen wij u naar een aantal van de kranten van de onderzoekers die ze ontwikkeld.  Drie recente papers van de nota zijn:

Chris eigenaardigheid, Menezes. Hebben we zinnen nodig? UitDagend de conventionele wijsheid in statistische machine translation Mei 2006 New York, New York, Verenigde Staten Werkzaamheden van HLT-NAACL 2006

Chris eigenaardigheid, Menezes. Afhankelijkheid Treelet vertaling: de convergentie van de statistische en voorbeeld-gebaseerde machine translation? Maart 2006 machine translation 43-65 (bijGevoegd bestand)


Chris eigenaardigheid, Menezes. Afhankelijkheids volgorde sjablonen gebruiken om de algemene vertaling te verbeteren Juli 2007 Vereniging voor computationele taalkunde

Afhankelijkheid Treelet vertaling de convergentie van statistische en voorbeeld gebaseerde machinetranslation. PDF