微軟翻譯通過世界上第一個語音翻譯 api 為每個人帶來端到端語音翻譯

張貼在 2016年3月30日由 Microsoft 線上翻譯

今天, 我們發佈了一個新版本的微軟翻譯 API 將即時語音到語音 (和語音到文本) 翻譯功能添加到現有的文本翻譯 api 中。在微軟最先進的人工智慧技術的支援下, 此功能已提供給數百萬使用者 Skype 一年多, 並 iOS 和安卓系統微軟翻譯應用程式的使用者自2015年底以來。現在, 企業將能夠將這些語音翻譯功能添加到其應用程式或服務中, 並為其客戶和員工提供更自然、更有效的使用者體驗。

語音翻譯可用於8種語言- 阿拉伯文, 中文普通話、英語、法語、德語、義大利文、葡萄牙文和西班牙文。所有的微軟翻譯都提供了文本翻譯 50多種支援的語言.提供18種支援的語言的語音翻譯。

這個新版本的 microsoft 翻譯器是第一個針對市場上可用的真實對話 (相對於簡單的人工到機器命令) 而優化的端到端語音翻譯解決方案。在今天之前, 語音翻譯解決方案需要從許多不同的 api (語音辨識、翻譯和語音合成) 拼湊在一起, 這些 api 沒有針對會話語音進行優化, 也沒有設計成彼此工作。現在, 最終使用者和企業都可以通過將語音翻譯集成到他們熟悉的應用和服務中, 消除語言障礙。

我的企業如何使用語音翻譯技術？

語音翻譯可用於各種人對人、小組或人對機的場景。人與人之間的方案可能包括單向翻譯, 如個人翻譯、字幕或遠端或面對面的多語言通信, 類似于目前在 skype 翻譯或適用于 ios 的 microsoft 翻譯應用程式中找到的內容。Android。組方案可以包括即時演示, 如活動主題演講、網播和大學課程, 或聚會, 如面對面的會議或線上遊戲聊天室。人機方案可以包括商業智慧方案 (如分析或客戶通話記錄) 或 ai 交互。

我們剛剛開始觸及這種技術將有所説明的場景的表面, 由於它是以機器學習為基礎的, 隨著越來越多的人和公司使用它, 它的品質和適用性將隨著時間的推移而提高。

一些合作夥伴公司已經測試了 api, 並將其集成到自己的應用程式中:

電話2 瑞典是一家領先的移動運營商, 在超過15個國家擁有超過1500萬使用者, 將翻譯集成到其 pbx 中, 以支援其蜂窩網路上的即時電話翻譯 (無需應用程式!
Lionbridge (波士頓, 麻塞諸塞州), 語言服務提供者和黃金級別翻譯合作夥伴, 開發了一個集成的視頻字幕解決方案。
普德拉夫, 一個專門開發技術以支援聽力困難和聾啞人社區的應用程式供應商, 將新的 api 集成到他們的手語頭像應用程式中, 以便能夠對語音進行多語言支援來簽署方案。

語音翻譯是如何工作的？

語音到語音翻譯是一個非常複雜的挑戰。它使用最新的人工智慧技術, 如語音辨識和文本翻譯的深度神經網路。目前市場上還沒有其他完全集成的語音翻譯解決方案, 它提供了一個平臺, 支援現實生活中的語音翻譯場景, 而不僅僅是將現有的語音辨識拼接在一起,文本翻譯技術。語音翻譯有四個階段, 以便能夠提供這種體驗:

自動語音辨識 (asr)- 一個深度神經網路訓練了數千小時的音訊分析傳入的語音。此模型是在人與人之間的交互而不是人與機的命令上訓練的, 它產生了針對正常對話而優化的語音辨識。
truetext- 作為一項 microsoft 研究創新, truetext 採用文字文本並將其轉換為更緊密地反映使用者意圖。它通過消除語音不連續 (如 "um" 和 "ah") 以及口吃和重複來實現這一點。通過添加句子符、適當的標點符號和大小寫, 文本也變得更具可讀性和可翻譯性。(見下圖)
翻譯- 文本被翻譯成微軟翻譯支援的50多種語言中的任何一種。通過使用深度神經網路驅動的語言模型對數百萬字的會話資料進行培訓, 對這八種語音語言進行了進一步的對話優化。
文本到語音- 如果目的語言是支援的18種語音語言之一, 則文本將使用語音合成轉換為語音輸出。在語音到文本的翻譯方案 (如視頻字幕) 中省略了此階段。

如何開始？

開始使用新的 microsoft 翻譯語音 api 很容易。免費試用 10小時, 請于 a. ms/tranlatoradmsw.您可以在虛擬環境中測試設定和實現, 也可以閱讀我們的新 "交換" 頁.您還可以找到應用程式範例和其他有用的資訊 GitHub.

當然, 如果您有問題、問題或回饋, 我們很樂意聽取!您可以讓我們知道我們的回饋和支援論壇.

瞭解更多資訊

微軟翻譯博客

我的企業如何使用語音翻譯技術？

語音翻譯是如何工作的？

如何開始？