メイン コンテンツへスキップ
Translator
このページは、マイクロソフト翻訳者の機械翻訳サービスによって自動的に翻訳されました。 詳細情報

マイクロソフト翻訳ブログ

政治的に不適切なマシン

機械翻訳チームでは、過去数ヶ月にわたってさまざまなサービスへのトラフィックが増加していますが、昨日のトラフィックの急増に気付きました。アガサ・クリスティーとシャーロック・ホームズで育ったこのような謎は私にとっては非常に魅力的であり、チームの他の多くの人々は、この突然のバンプを引き起こしたものを見つけるために好奇心旺盛でした。我々は、 IE8 アクティビティ/アクセラレータは、 メッセンジャーボット, 翻訳の検索, オフィス翻訳 は、すべてが前の日と同じ上向きの傾向を示していたので、このバンプの具体的な理由ではありませんでした。

最終的に、我々はこのスパイクを見ていた理由の一つを特定することができました。私たちのユーザーコミュニティは、機械翻訳エンジンが英語からドイツ語にいくつかの名前の翻訳を処理する方法に風変わりを発見しました。これは、エンジンは、他の当事者から誰かに1党の候補の名前を変換するときに期待されていました, 米国の選挙までの実行中の現在の政治的な雰囲気を考えると, それはニュースとして終わるだろうこと.私たちは確かにこの現象をチェックするために来たすべての新しいユーザーを歓迎しているが、私たちは、そのようなことが私たちと他の人から統計的に訓練された機械翻訳システムで随時発生するように見える理由をユーザーと共有したいと考えていました。

統計機械翻訳エンジンは、多くの並列データ、つまり、ソース言語 (英語など) とターゲット言語 (ドイツ語など) の両方に存在し、ソースとターゲットが互いに翻訳されているデータについて学習されます。私たちのエンジンは、サポートしている言語ペアごとに数百万の文で訓練されています。データの特定のコーパス (ドイツ語に翻訳された英語のニュースワイヤー記事の数が多い) でトレーニングするためには、まずそのコーパスを文章に分割する必要があります。コーパスの文が壊れた後、結果として得られた文を文の中に送り、その唯一の目的は、ソース側のどの文がターゲット側の文に合っているかを見つけることです。1つの側の文はターゲット上の1つ以上の文に整列する可能性があるので、これは些細な作業ではありません (または、おそらくまったくありません!)。ミスアライメントは時々間違いを犯し、実際には翻訳ではない別の文を1つの文章にします。これは、特に発生頻度の低いソースとターゲットに単語がある場合に、いくつかの誤訳につながる可能性があります。私たちの翻訳エンジンは統計的であるため、ソースとターゲットのデータ内の単語間の共起頻度に非常に依存しています。特定の単語が頻繁に発生していない場合、例えば、数百万の文章のコーパスでは、頻度が不足すると、ソースとターゲットの間の誤った「推測」に起因する誤訳が発生する可能性があります (すなわち、低特定のソースとターゲットの単語に割り当てられた確率)。これは私たちの翻訳システムでいくつかのコミカルな失言につながることができます。

だから、それは、「マシン」が私たちのチームのユーモアのセンスにそれを結び付けるコミュニティに終わった方法で翻訳することを決めた方法です。私たちは、適切なアライメントを確保するために懸命に努力し続けていますが、それは、こうした状況が繰り返される可能性がある数百万から数十億の単語に基づいて構築された統計システムから期待されることです。

現在のアライメントの問題は解決されるはずですが、このブログを通じて当社に連絡することによって、このような状況を特定する手助けをし続けることをユーザーのコミュニティに促します。

-ヴィクラム

ヴィクラムデンディ、マイクロソフト翻訳チームのビジネス戦略と製品計画をリード