Przejdź do głównej zawartości
Translator
Ta strona została automatycznie przetłumaczona przez usługę tłumaczenia maszynowego Microsoft Translator. Dowiedz się więcej

Blog Microsoft Translator

Statystyczne tłumaczenie maszynowe-Guest blog (Aktualizacja z dodatkowym papieru)

Will Lewis jest menedżerem programu w zespole Microsoft translator, pracując nad jakością języka i pozyskiwaniem danych.  Dzisiejszy blog Gości jest wysoki poziom wyjaśnienie, jak działa silnik:  

Jak wielu z was wie, pod maską Microsoft Translator jest zasilany przez statystyczne maszyny Translation (SMT) silnika.  Systemy statystyczne różnią się od tych opartych na regule w tym, że "zasady" mapowania słów i zwrotów z jednego języka do drugiego są nauczane przez system, a nie są ręcznie kodowane.  Szkolenie SMT wymaga gromadzenie dużej ilości równoległych danych szkoleniowych — miejmy nadzieję na dobrą jakość i ze źródeł niejednorodnych — oraz szkolenie silnika na tych danych.  (Równolegle, mamy na myśli źródło danych, gdzie zawartość dla jednego języka jest taka sama jak zawartość dla drugiego.)  Silnik poznaje Korespondencje między słowami i wyrażeniami w jednym języku, a tymi w innym, które często są wzmacniane powtarzającymi się zdarzeniami tych samych słów i zwrotów w całym wejściu.  Na przykład, w szkoleniu angielsko-niemieckiego systemu powiedzmy, jeśli silnik widzi frazę Wszelkie prawa zastrzeżone po stronie angielskiej, a także zauważa, Alle Rechte vorbehalten po stronie niemieckiej, może wyrównać te dwa zwroty i przypisać pewne prawdopodobieństwo do tego wyrównania.  Powtarzające się wystąpienia źródłowych i docelowych zwrotów w danych szkoleniowych wzmocnią tylko to wyrównanie.

Ogólnie rzecz biorąc, posiadanie równoległych danych dla pary językowej oznacza, że możemy szkolić silniki w obu kierunkach (tj. zarówno angielsko-niemieckie, jak i niemiecko-angielskie systemy mogą być przeszkolone w tym samym zdaniu wejściowym).  Niektórzy z was mieli kilka pytań dotyczących Dlaczego to, że wydaliśmy angielsko-hiszpański system przed opublikowaliśmy hiszpańsko-angielski.  Były naprawdę dwa powody.  Po pierwsze, angielsko-hiszpański była pierwszą parą językową domeny ogólnej, którą wydaliśmy.  Zwolnienie jednej pary językowej pozwoliło nam przetestować infrastrukturę, zanim zaczęliśmy zwalnianie więcej.  Po drugie, technologia dla hiszpańsko-angielski był nieco inny niż używany dla angielsko-hiszpański, i potrzebujemy trochę więcej czasu, aby zrobić niezbędne zmiany infrastrukturalne, aby pomieścić.  W przyszłości planujemy wydać nowe systemy tłumaczeniowe w parach (z kilkoma wyjątkami).  Nie mogę ujawnić, jakie języki mamy zaplanowane obok, ale spodziewaj się wkrótce kilka nowych!

Dla zainteresowanych dyskusjami technicznymi dotyczącymi naszych silników i ich pracy, proszę odnieść się do niektórych prac naukowców, którzy je opracowali.  Trzy ostatnie dokumenty notatki są:

Krzysztof... Czy potrzebujemy zwrotów? Wyzwanie konwencjonalnej mądrości w statystycznym tłumaczeniu maszynowego Maj 2006 Nowy Jork, Nowy Jork, USA Postępowanie w sprawie HLT-NAACL 2006

Krzysztof... Zależność Treelet Translation: konwergencja statystycznego i opartego na przykładzie tłumaczenia maszynowego? Marzec 2006 maszyna translacji 43-65 (dołączony plik)


Krzysztof... Używanie szablonów kolejności zależności w celu poprawy ogólności w tłumaczeniu 2007 lipca Stowarzyszenie językoznawstwa obliczeniowego

Zależność Treelet translation Konwergencja statystycznego i opartego na przykładzie machinetranslation. PDF