Bing'sジェンダートランスレーションは、翻訳における偏見に取り組んでいます。
本日より、英語からスペイン語、フランス語、イタリア語への翻訳時に、男性名詞と女性名詞の代替訳が利用できるようになりましたのでお知らせします。この新機能は、以下の両方で試すことができます。 Bing 検索 そして Bing Translator のバーティカルです。
ここ数年、機械翻訳(MT)の分野は、トランスフォーマーモデルの登場によって革命的に変化し、品質の驚異的な向上につながりました。しかし、実世界から収集されたデータの統計的特性を捉えるために最適化されたモデルは、そのデータに見られる社会的バイアスを不注意に学習し、あるいは増幅してしまいます。
私たちの最新のリリースは、これらのバイアスの1つ、特にMTシステムに蔓延しているジェンダーバイアスを減らすための一歩です。Bing Translatorは、入力された文に対して、女性名詞や男性名詞を含む他の性別のバリエーションがある場合でも、常に単一の訳語を生成してきました。に従っています。 マイクロソフトの責任あるAI原則私たちは、女性用と男性用の翻訳を提供することで、すべての性別を受け入れることができるようにしたいと考えています。その一環として、私たちはまず、女性用と男性用の翻訳バリエーションを提供することにしました。
性別は、言語によって表現が異なる。例えば、英語では弁護士という言葉は男性、女性のどちらの個人も指すことができますが、スペイン語では。 アボガダ は、女性弁護士を指すのでしょうが アボガド は、男性のものを指す。原文に「弁護士」のような名詞の性別に関する情報がない場合、MTモデルは、ターゲット言語における名詞の任意の性別を選択することに頼ることがあります。多くの場合、これらの任意の性別の割り当てはステレオタイプに一致し、有害な社会的偏見を永続させ(Stanovskyら、2019;Cioraら、2021)、完全に正確でない翻訳につながる。
下の例では、ジェンダーニュートラルな文章を英語からスペイン語に翻訳する際に、翻訳された文章がステレオタイプのジェンダーロールに従っている、つまり、弁護士は男性であると翻訳されていることに気づきます。
原文には弁護士の性別を示唆する文脈がないため、男性または女性の弁護士を想定して翻訳を作成すると、どちらも有効です。現在、Bing Translatorでは、女性形と男性形の両方の翻訳を作成しています。
システム設計
私たちは、性別に関係なく代替品を提供するために、次のような重要な基準を満たすようなシステム設計を目指しました。
- 女性型と男性型のバリアントは、性別を伝えるために必要なもの以外は、最小限の違いしかないようにします。
- 複数の性別の代替案が可能な文章を幅広くカバーしたいと考えました。
- 原文の意味を損なわないような翻訳を心がけました。
ジェンダーアンビギュイティの検出
原文の性別の曖昧さを正確に検出するために、共参照モデルを利用して、動名詞を含む入力を分析します。例えば、ある入力テキストに性別に関係ない職業語が含まれている場合、文中の他の情報によってその性別が決定できない場合にのみ、性別のある代替案を提供します。例えば、次のような場合です。例えば、「The lawyer met her driver at the hotel lobby.」という英文をフランス語に翻訳すると、弁護士は女性、運転手の性別は不明と判断できる。
代替訳を生成する
原文の性別があいまいな場合、翻訳システムの出力を調べて、別の性別の解釈が可能かどうかを判断します。可能であれば、翻訳を修正する最適な方法を決定するために進みます。まず、原文の翻訳を書き換えて、ターゲットとなる翻訳候補のセットを作成します。提案された代替案の一貫性を確保するために、依存関係に基づく言語的制約を適用し、誤った候補を削除する。
しかし、多くの場合、制約を適用しても、性別のある代替訳の書き換え候補が複数残ってしまいます。そこで、最適な選択肢を決定するために、各候補を翻訳モデルでスコアリングして評価します。優れた性別代替訳は、原文の正確な翻訳でもあるという事実を活用することで、最終的な出力に高い精度を確保することができます。
Azure Machine Learningでマネージドオンラインエンドポイントを活用する。
Bing のジェンダーの代替機能をホストしています。 マネージドオンラインエンドポイント をAzure Machine Learningで提供します。マネージド・オンライン・エンドポイントは、Microsoftが管理するコンピュート上でモデルのデプロイメントをターンキー方式で呼び出し、管理するための統一インターフェースを提供します。これらを利用することで、インフラ管理を気にすることなく、スケーラブルで信頼性の高いエンドポイントを活用することができます。また、この推論環境は、大量のリクエストを低レイテンシーで処理することを可能にします。Azure Machine Learningのマネージド推論機能を利用することで、最新のフレームワークや技術でジェンダーデビアスサービスを作成・展開する能力が大幅に向上しました。これらの機能を活用することで、私たちは低いCOGS(売上原価)を維持し、セキュリティとプライバシーのコンプライアンスをまっすぐに確保することができました。
どのように貢献できるのか?
MTにおけるジェンダーバイアスの低減を促進するため、英語からスペイン語、フランス語、イタリア語へのジェンダーバイアスのない翻訳例を含むテストコーパスを公開します。各英語の原文には複数の訳文が付属しており、可能な限りの性差をカバーしています。
私たちのテストセットは、難易度が高く、形態素が豊富で、言語的に多様であるように構成されています。このコーパスは、私たちの開発プロセスで役立っています。このコーパスは、翻訳経験の豊富なバイリンガルの言語学者の協力のもと開発されました。また、テストコーパスの詳細、評価のための方法論とツールについて説明したテクニカルペーパーを公開しています。
GATE: 性別を問わない翻訳例へのチャレンジセット - テストセット
パスフォワード
この研究を通じて、原文の性別が曖昧な場合のMT出力の品質を向上させるとともに、より優れた、より包括的な自然言語処理(NLP)ツール全般の開発を促進することを目指しています。最初のリリースでは、英語からスペイン語、フランス語、イタリア語への翻訳に焦点を当てています。今後、新しい言語ペアへの拡張や、シナリオの追加、バイアスの種類の追加を予定しています。
クレジットのことです。
ランジータ・ナイク、スペンサー・ラーリック、スンダル・プーデル、ヴァルン・マトゥール、ジェシュワント・クマール・チャンドララ、チャラン・モハン、リー・シュワルツ、スティーブン・グエン、アミット・バグワット、ヴィシャール・チョードゥリー。