跳轉至主要內容
線上翻譯

微軟翻譯博客

統計機器翻譯–訪客博客 (更新與額外的論文)

威爾·路易斯是微軟翻譯團隊的專案經理, 從事語言品質和資料獲取方面的工作。 今天的嘉賓博客是對發動機工作原理的高級解釋:  

正如你們中的許多人所知道的, 在引擎蓋下, 微軟翻譯是由統計機器翻譯 (smt) 引擎提供動力的。 統計系統不同于基於規則的系統, 因為將單詞和短語從一種語言映射到另一種語言的 "規則" 是由系統學習的, 而不是手工編碼的。 培訓 smt 需要收集大量並行培訓資料 (希望品質好, 來自異構來源), 並對引擎進行這些資料的培訓。 (並行是指一種語言的內容與另一種語言的內容相同的資料來源。 引擎學習一種語言中的單詞和短語與另一種語言中的單詞和短語之間的對應關係, 這些對應通常通過在整個輸入過程中反復出現相同的單詞和短語來加強。 例如, 在訓練英德系統, 讓我們說, 如果引擎看到短語 保留擁有權利 在英國方面, 也注意到 alle rechte vorbehalten 在德國方面, 它可能會對齊這兩個短語, 並為這種對齊指定一些概率。 在訓練資料中重複出現源短語和目標短語只會加強這種對齊。

通常, 語言對具有並行資料意味著我們可以在兩個方向上訓練引擎 (即, 英語-德語和德語-英語系統都可以在相同的輸入句子上進行訓練)。 你們中的一些人對為什麼我們在發佈西班牙文英語之前發佈了英語-西班牙文系統有一些疑問。 真的有兩個原因。 首先, 英語-西班牙文是我們發佈的第一對通用域語言對。 釋放一種語言對允許我們在開始發佈更多語言之前測試基礎結構。 其次, 西班牙文英語的技術與英語西班牙文的技術略有不同, 我們需要一些額外的時間來進行必要的基礎設施變革, 以適應這種變化。 將來, 我們計畫成對發佈新的翻譯系統 (有幾個例外)。 我無法透露我們下一步計畫了什麼語言, 但確實期待一些新的語言很快!

對於那些對有關我們發動機及其工作原理的技術討論感興趣的人, 請參考開發這些發動機的研究人員的一些論文。 最近有三份值得注意的檔是:

克裡斯·奎克, arul menezes。 我們需要短語嗎?對統計機器翻譯傳統智慧的挑戰 2006年5月紐約, 紐約, 美國 hlt-naacl 2006 論文集

克裡斯·奎克, arul menezes。 依賴語翻譯: 統計與基於實例的機器翻譯的融合? 2006年3月機器翻譯 43-65 (附檔)


克裡斯·奎克, arul menezes。 利用依賴項排序範本提高翻譯的通用性 2007年7月 計算語言學協會

依賴樹翻譯統計和基於實例的機器翻譯的收斂性. pdf