跳轉至主要內容
線上翻譯

微軟翻譯博客

政治上不正確的機器

雖然我們機器翻譯團隊在過去幾個月裡看到我們的各種產品的流量不斷增加, 但我們注意到昨天的流量突然出現了碰撞。在愛葛莎·克利斯蒂和福爾摩斯身上長大的這樣的謎團對我來說是不可抗拒的--而隊中的其他一些人也同樣好奇, 想知道是什麼原因導致了這一突然的碰撞。我們認為 ie8 活動/加速器, 該 信使 Bot, 搜索翻譯, 辦公室翻譯 都顯示出與前幾天相同的上升趨勢, 因此並不是造成這種碰撞的具體原因。

最終, 我們能夠確定我們看到這個尖峰的一個潛在原因。我們的使用者社區發現機器翻譯引擎如何處理從英語到德語的幾個名字的翻譯是一個奇怪的問題。可以預見, 考慮到目前美國大選前的政治氣氛, 當引擎將一個政黨的候選人姓名翻譯給另一個政黨的人時, 最終會成為新聞。雖然我們當然歡迎所有新使用者來檢查這種現象-我們想與我們的使用者分享為什麼這樣的事情似乎不時發生與統計培訓的機器翻譯系統從我們和其他人。

統計機器翻譯引擎接受大量並行資料的培訓, 即來源語言 (如英語) 和目的語言 (如德語) 中存在的資料, 其中源和目標是彼此的翻譯。我們的引擎針對我們支援的每一對語言組合都接受了數百萬句子的訓練。為了訓練特定的資料語料庫--也許是大量被翻譯成德語的英文新聞文章--我們首先必須將該語料庫分解成句子。語料庫被打破後, 我們把產生的句子喂成一個句子, 其唯一目的是找到源方的句子與目標方的句子對齊。這不是一項微不足道的任務, 因為可以想像, 一邊的句子可以與目標上的一個或多個句子對齊 (或者可能根本沒有!)這個人有時會犯錯, 把一個句子和另一個句子錯位, 而這其實不是翻譯。這可能會導致一些誤譯, 特別是如果源和目標中有不經常發生的單詞。由於我們的翻譯引擎是統計的, 它高度依賴于來源資料和目標資料中單詞之間的共現頻率。如果某些詞很少出現--例如, 人們的名字可能只在數百萬句子的主體中出現幾次--那麼頻率的缺乏可能會導致源和目標之間不正確的 "猜測" (即低) 導致誤譯分配給特定源和目標詞的概率)。這可能會導致我們的翻譯系統出現一些滑稽的錯誤。

所以, "機器" 就是這樣決定翻譯的, 最終社區將其歸因於我們團隊的幽默感。雖然我們繼續努力確保適當的調整, 但從一個建立在數百萬到數十億字基礎上的統計系統可以預期, 這種情況可能會重演。

目前與對齊的問題現在應該得到解決, 但我們敦促我們的使用者社區通過這個博客聯繫我們, 不斷説明我們識別任何這種情況。

-維克拉姆

維克拉姆·丹迪領導微軟翻譯團隊的業務戰略和產品規劃