マイクロソフトの翻訳者は、世界初の音声翻訳 API を持つすべての人にエンドツーエンドの音声翻訳をもたらす

投稿日時 2016年03月30日によるものです。 Microsoft Translator

今日、我々はの新しいバージョンをリリースマイクロソフト翻訳 API これにより、既存のテキスト翻訳 API にリアルタイムの音声合成 (および音声テキスト変換) 機能が追加されます。マイクロソフトの最先端の人工知能技術を搭載したこの機能は、数百万人のユーザーが利用できるようになりました。 Skype 1年以上 iOS そしてアンドロイド 2015以降、マイクロソフトの翻訳アプリのユーザー。これにより、企業はこれらの音声翻訳機能をアプリケーションやサービスに追加し、より自然で効果的なユーザーエクスペリエンスを顧客やスタッフに提供できるようになります。

音声翻訳は8つの言語で利用できます— アラビア語、中国語 (マンダリン)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語。テキストへの翻訳は、マイクロソフトの翻訳者のすべてで利用可能です 50 + サポートされている言語.音声への翻訳は18のサポートされている言語で利用できる。

この新しいバージョンの Microsoft トランスレータは、市場で利用可能な実際の会話 (対単純な人間と機械のコマンド) に最適化された最初のエンドツーエンドの音声翻訳ソリューションです。今日まで、音声翻訳ソリューションは、複数の異なる api (音声認識、翻訳、音声合成) から一緒に石畳をする必要がありましたが、会話音声用に最適化されていないか、または互いに動作するように設計しています。これで、エンドユーザーや企業は、使い慣れたアプリやサービスに音声翻訳を統合することで、言語の障壁を取り除くことができます。

どのように私のビジネスは、音声翻訳技術を使用できますか?

音声変換は、さまざまな人から人へ、グループ、または人間と機械のシナリオで使用できます。個人間のシナリオには、Skype トランスレータまたは iOS 用の Microsoft トランスレータアプリで現在発見されているものと同様の、個人的な翻訳、字幕、またはリモートまたはマルチリンガル通信などの一方向の翻訳が含まれる場合があります。Android。グループのシナリオには、イベントのキーノート、web キャスト、大学のクラスなどのリアルタイムのプレゼンテーションや、個人会議やオンラインゲームチャットなどの集まりなどがあります。ヒューマン・ツー・マシンのシナリオには、ビジネス・インテリジェンスのシナリオ (分析や顧客コール・ログなど) や AI インタラクションなどがあります。

我々は、単にこの技術が役立つシナリオの表面をスクラッチし始めている, それはマシンの学習に基づいているとして, その品質とその適用性は、より多くの人々や企業がそれを使用しているように時間とともに改善されます.

いくつかのパートナー企業が API をテストし、それを独自のアプリに統合しました。

テレ2 スウェーデンでは、15カ国以上で1500万以上の加入者を持つ主要な携帯電話事業者は、彼らの PBX にリアルタイム通話の翻訳をサポートするために統合された翻訳 (ないアプリが必要!)
Lionbridge (ボストン、マサチューセッツ州)、言語サービスプロバイダとゴールドレベルの翻訳パートナーは、統合されたビデオ字幕ソリューションを開発した。
ProDeaf、聴覚障害者のコミュニティをサポートするための技術開発に特化したアプリケーションベンダは、新しい API を手話アバターアプリに統合し、音声の多言語サポートがシナリオに署名できるようにしました。

音声翻訳はどのように機能しますか?

音声から音声への翻訳は非常に複雑な課題です。これは、音声認識とテキスト翻訳のためのディープニューラルネットワークなどの最新の AI 技術を使用しています。今日の市場で利用可能な他の完全に統合された音声翻訳ソリューションはありませんし、単に既存の音声認識をつなぎ合わせることを超えて必要な現実の音声翻訳のシナリオをサポートするプラットフォームを提供し、テキスト翻訳技術。音声翻訳には4つの段階があり、このエクスペリエンスを実現できます。

自動音声認識 (ASR) — オーディオの数千時間の訓練を受けた深いニューラルネットワークは、着信音声を分析します。このモデルは、人間と人間の相互作用ではなく、人と機械のコマンドは、通常の会話のために最適化された音声認識を生成する訓練を受けています。
TrueText — マイクロソフトの研究革新は、TrueText リテラルテキストを受け取り、より密接にユーザーの意図を反映するように変換します。これは、"um" s と "ah" のような音声言いよどみを削除することによって、これを達成するだけでなく、吃音と繰り返し。テキストは、改行、適切な句読点、および大文字小文字を追加することによって、より読みやすく翻訳できます。(下の画像を参照してください)
翻訳テキストは、マイクロソフトの翻訳者がサポートする50以上の言語のいずれかに翻訳されています。8つの音声言語は、さらに深いニューラルネットワークの言語モデルを使用して会話データの何百万の単語の訓練によって会話のために最適化されている。
テキストを音声に- ターゲット言語がサポートされている18の音声言語のいずれかである場合、テキストは音声合成を使用して音声出力に変換されます。このステージは、ビデオ字幕などの音声からテキストへの変換シナリオでは省略されています。

どうやって始めるのですか?

新しい Microsoft 翻訳者向け音声 API を使い始めるのは簡単です。無料の10時間トライアルをご利用いただけます aka.ms/TranslatorADMSpeech.仮想環境でのセットアップと実装をテストするだけでなく、新しい API ドキュメントを読むことができます。闊歩ページ.また、例のアプリやその他の有用な情報を見つけることができます Github.

もちろん、あなたが質問、問題、またはフィードバックを持っている場合、私たちはそれを聞くのが大好きです!あなたは私たちに知らせることができますフィードバックとサポートフォーラム.

詳細情報

マイクロソフト翻訳ブログ

どのように私のビジネスは、音声翻訳技術を使用できますか?

音声翻訳はどのように機能しますか?

どうやって始めるのですか?