Bings geschlechtsspezifische Übersetzungen bekämpfen Verzerrungen bei der Übersetzung

Veröffentlicht am 8. März 20237. März 2023bis Microsoft Translator

Gender De-Bias — 3D-Darstellung von Geschlechtersymbolen.

Wir freuen uns, Ihnen mitteilen zu können, dass ab heute männliche und weibliche alternative Übersetzungen für Übersetzungen aus dem Englischen ins Spanische, Französische oder Italienische verfügbar sind. Sie können diese neue Funktion in beiden Bing-Suche Und Bing Translator Vertikalen.

In den letzten Jahren wurde der Bereich der maschinellen Übersetzung (MÜ) durch das Aufkommen von Transformatormodellen revolutioniert, was zu enormen Qualitätsverbesserungen führte. Modelle, die optimiert sind, um die statistischen Eigenschaften von Daten aus der realen Welt zu erfassen, lernen jedoch versehentlich soziale Verzerrungen oder verstärken sie sogar, die in diesen Daten gefunden werden.

Unsere neueste Version ist ein Schritt zur Verringerung einer dieser Verzerrungen, insbesondere der geschlechtsspezifischen Verzerrung, die in MÜ-Systemen vorherrscht. Bing Translator hat immer eine einzelne Übersetzung für einen Eingabesatz erstellt, auch wenn die Übersetzungen andere Geschlechtsvariationen einschließlich weiblicher und männlicher Varianten hätten aufweisen können. In Übereinstimmung mit der Microsoft-Prinzipien für verantwortungsvolle KImöchten wir sicherstellen, dass wir korrekte alternative Übersetzungen anbieten und alle Geschlechter umfassender berücksichtigen. Als Teil dieser Reise ist unser erster Schritt, feminine und männliche Übersetzungsvarianten anzubieten.

Das Geschlecht wird in verschiedenen Sprachen unterschiedlich ausgedrückt. Zum Beispiel könnte sich das Wort Anwalt im Englischen entweder auf eine männliche oder weibliche Person beziehen, aber im Spanischen, Abogada würde sich auf eine Anwältin beziehen, während Abogado würde sich auf einen männlichen beziehen. In Ermangelung von Informationen über das Geschlecht eines Substantivs wie "Anwalt" in einem Quellsatz können MÜ-Modelle auf die Auswahl eines beliebigen Geschlechts für das Substantiv in der Zielsprache zurückgreifen. Oft stimmen diese willkürlichen Geschlechterzuweisungen mit Stereotypen überein und verewigen schädliche gesellschaftliche Vorurteile (Stanovsky et al., 2019; Ciora et al., 2021) und führt zu Übersetzungen, die nicht ganz korrekt sind.

Im folgenden Beispiel stellen Sie fest, dass bei der Übersetzung geschlechtsneutraler Sätze aus dem Englischen ins Spanische der übersetzte Text der stereotypen Geschlechterrolle folgt, d.h. Anwalt wird als männlich übersetzt.

Übersetzung mit geschlechtsspezifischer Voreingenommenheit — Screenshot der Übersetzung des englischen Textes "Let's get our lawyer's opinion on this issue." in die spanische Sprache mit geschlechtsspezifischer Voreingenommenheit.

Da es im Quellsatz keinen Kontext gibt, der das Geschlecht des Anwalts impliziert, wäre die Erstellung einer Übersetzung unter der Annahme eines männlichen oder weiblichen Anwalts gültig. Jetzt erstellt Bing Translator Übersetzungen mit weiblicher und männlicher Form.

Übersetzung eines geschlechtsspezifischen englischen Textes ins Spanische — Screenshot der Übersetzung des englischen Textes "Let's get our lawyer's opinion on this issue." ins Spanische mit geschlechtsspezifischen Übersetzungen.

Systementwurf

Unser Ziel war es, unser System so zu gestalten, dass es die folgenden Schlüsselkriterien für die Bereitstellung geschlechtsspezifischer Alternativen erfüllt:

Die weiblichen und männlichen Varianten sollten minimale Unterschiede aufweisen, außer denen, die zur Vermittlung des Geschlechts erforderlich sind.
Wir wollten eine breite Palette von Sätzen abdecken, in denen mehrere geschlechtsspezifische Alternativen möglich sind.
Wir wollten sicherstellen, dass die Übersetzungen die Bedeutung des ursprünglichen Ausgangssatzes erhalten.

Geschlechtsspezifische Mehrdeutigkeit erkennen

Um geschlechtsspezifische Mehrdeutigkeiten im Quelltext genau zu erkennen, verwenden wir ein Koreferenzmodell, um Eingaben zu analysieren, die animierte Substantive enthalten. Wenn beispielsweise ein bestimmter Eingabetext ein geschlechtsneutrales Berufswort enthält, möchten wir nur dann geschlechtsspezifische Alternativen dafür bereitstellen, wenn sein Geschlecht nicht durch andere Informationen im Satz bestimmt werden kann. Zum Beispiel: Wenn wir einen englischen Satz "Die Anwältin traf ihren Fahrer in der Hotellobby." ins Französische übersetzen, können wir feststellen, dass der Anwalt weiblich ist, während das Geschlecht des Fahrers unbekannt ist.

Übersetzung eines geschlechtsspezifischen mehrdeutigen englischen Textes ins Französische — Screenshot der Übersetzung des englischen Textes "The lawyer met her driver at the hotel lobby." ins Französische.

Generieren alternativer Übersetzungen

Wenn der Ausgangssatz mehrdeutig geschlechtsspezifisch ist, untersuchen wir die Ergebnisse unseres Übersetzungssystems, um zu entscheiden, ob eine alternative Geschlechtsinterpretation möglich ist. Wenn ja, ermitteln wir, wie die Übersetzung am besten überarbeitet werden kann. Wir beginnen mit der Erstellung einer Reihe von Kandidatenzielübersetzungen, indem wir die ursprüngliche Übersetzung neu schreiben. Wir wenden sprachliche Zwänge an, die auf Abhängigkeitsbeziehungen basieren, um die Konsistenz der vorgeschlagenen Alternativen zu gewährleisten und die fehlerhaften Kandidaten zu beschneiden.

In vielen Fällen bleiben uns jedoch selbst nach Anwendung unserer Einschränkungen mehrere Kandidatenumschreibungen für die geschlechtsspezifische alternative Übersetzung. Um die beste Option zu ermitteln, bewerten wir jeden Kandidaten, indem wir ihn mit unserem Übersetzungsmodell bewerten. Indem wir die Tatsache nutzen, dass eine gute Gender-Umschreibung auch eine genaue Übersetzung des Ausgangssatzes ist, können wir eine hohe Genauigkeit in unserer Endausgabe gewährleisten.

Ein Diagramm, das das Systemdesign der Gender-Re-Flexion zeigt.

Nutzung verwalteter Onlineendpunkte in Azure Machine Learning

Das geschlechtsspezifische alternative Feature in Bing wird gehostet auf Verwaltete Online-Endpunkte in Azure Machine Learning. Verwaltete Onlineendpunkte bieten eine einheitliche Schnittstelle zum Aufrufen und Verwalten von Modellbereitstellungen auf von Microsoft verwalteten Computegeräten auf schlüsselfertige Weise. Sie ermöglichen es uns, skalierbare und zuverlässige Endpunkte zu nutzen, ohne uns um das Infrastrukturmanagement kümmern zu müssen. Diese Inferenzumgebung ermöglicht auch die Verarbeitung einer großen Anzahl von Anforderungen mit geringer Latenz. Unsere Fähigkeit, den Gender-Debias-Dienst mit den neuesten Frameworks und Technologien zu erstellen und bereitzustellen, wurde durch die Verwendung verwalteter Inferenzfeatures in Azure Machine Learning erheblich verbessert. Durch die Nutzung dieser Funktionen konnten wir niedrige COGS (Cost of Goods Sold) aufrechterhalten und eine einfache Sicherheits- und Datenschutz-Compliance gewährleisten.

Wie können Sie dazu beitragen?

Um Fortschritte bei der Reduzierung von geschlechtsspezifischen Vorurteilen bei der MT zu erleichtern, veröffentlichen wir ein Testkorpus mit geschlechtsspezifischen Übersetzungsbeispielen aus dem Englischen ins Spanische, Französische und Italienische. Jeder englische Ausgangssatz wird von mehreren Übersetzungen begleitet, die jede mögliche Geschlechtsvariation abdecken.

Unser Testset ist anspruchsvoll, morphologisch reich und sprachlich vielfältig. Dieses Korpus war maßgeblich an unserem Entwicklungsprozess beteiligt. Es wurde mit Hilfe eines zweisprachigen Linguisten mit umfangreicher Übersetzungserfahrung entwickelt. Wir veröffentlichen auch ein technisches Papier, das den Testkorpus im Detail und die Methodik und Werkzeuge für die Bewertung diskutiert.

GATE: Eine Herausforderung für geschlechtsspezifische Übersetzungsbeispiele – Papier

GATE: Eine Herausforderung für geschlechtsspezifische Übersetzungsbeispiele – Testset

Der Weg in die Zukunft

Durch diese Arbeit wollen wir die Qualität der MÜ-Ausgabe in Fällen von mehrdeutigem Quellgeschlecht verbessern und die Entwicklung besserer und umfassenderer Werkzeuge für die Verarbeitung natürlicher Sprache (NLP) im Allgemeinen erleichtern. Unsere erste Version konzentriert sich auf die Übersetzung vom Englischen ins Spanische, Französische und Italienische. In Zukunft planen wir, auf neue Sprachpaare zu expandieren und zusätzliche Szenarien und Arten von Verzerrungen abzudecken.

Kredite:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.

Microsoft Translator Blog