Overslaan naar hoofdinhoud
Translator
Deze pagina is automatisch vertaald door de machine vertaalservice van Microsoft Translator. Meer informatie

Microsoft Translator Blog

Bing's gendered vertalingen pakken vooroordelen in vertaling aan

Gender de-bias
3D-weergave van gendersymbolen.

We zijn verheugd om aan te kondigen dat er vanaf vandaag mannelijke en vrouwelijke alternatieve vertalingen beschikbaar zijn voor het vertalen van Engels naar Spaans, Frans of Italiaans. U kunt deze nieuwe functie in beide uitproberen Bing zoeken En Bing vertaler Verticalen.

In de afgelopen jaren is het gebied van machinevertaling (MT) gerevolutioneerd door de komst van transformatormodellen, wat heeft geleid tot enorme kwaliteitsverbeteringen. Modellen die zijn geoptimaliseerd om de statistische eigenschappen van gegevens die uit de echte wereld zijn verzameld, vast te leggen, leren of versterken echter onbedoeld sociale vooroordelen die in die gegevens worden gevonden.

Onze nieuwste release is een stap in de richting van het verminderen van een van deze vooroordelen, met name genderbias die veel voorkomt in MT-systemen. Bing Translator heeft altijd een enkele vertaling voor een invoerzin geproduceerd, zelfs als de vertalingen andere geslachtsvariaties hadden kunnen hebben, waaronder vrouwelijke en mannelijke varianten. In overeenstemming met de Microsoft verantwoordelijke AI-principes, willen we ervoor zorgen dat we correcte alternatieve vertalingen bieden en inclusiever zijn voor alle geslachten. Als onderdeel van deze reis is onze eerste stap om vrouwelijke en mannelijke vertaalvarianten te bieden.

Geslacht wordt verschillend uitgedrukt in verschillende talen. In het Engels kan het woord advocaat bijvoorbeeld verwijzen naar een mannelijk of vrouwelijk individu, maar in het Spaans, Abogada zou verwijzen naar een vrouwelijke advocaat, terwijl Abogado zou verwijzen naar een mannelijke. Bij gebrek aan informatie over het geslacht van een zelfstandig naamwoord zoals 'advocaat' in een bronzin, kunnen MT-modellen hun toevlucht nemen tot het selecteren van een willekeurig geslacht voor het zelfstandig naamwoord in de doeltaal. Vaak komen deze willekeurige geslachtstoewijzingen overeen met stereotypen, waardoor schadelijke maatschappelijke vooroordelen in stand worden gehouden (Stanovsky et al., 2019; Ciora et al., 2021) en leidend tot vertalingen die niet volledig accuraat zijn.

In het onderstaande voorbeeld merk je dat tijdens het vertalen van genderneutrale zinnen van het Engels naar het Spaans, de vertaalde tekst de stereotiepe genderrol volgt, d.w.z. dat de advocaat wordt vertaald als mannelijk.

Vertaling met gender bias
Screenshot van vertaling van Engelse tekst "Let's get our lawyer's opinion on this issue." in de Spaanse taal met gender bias.

Aangezien er in de bronzin geen context is die het geslacht van de advocaat impliceert, zou het produceren van een vertaling met de aanname van een mannelijke of vrouwelijke advocaat beide geldig zijn. Nu produceert Bing Translator vertalingen met zowel vrouwelijke als mannelijke vormen.

Vertaling van gender ambigue Engelse tekst in het Spaans
Screenshot van vertaling van Engelse tekst "Let's get our lawyer's opinion on this issue." in het Spaans met genderspecifieke vertalingen.

Systeemontwerp

We wilden ons systeem zo ontwerpen dat het voldoet aan de volgende belangrijke criteria voor het bieden van gendergerelateerde alternatieven:

  1. De vrouwelijke en mannelijke varianten moeten minimale verschillen hebben, behalve die welke nodig zijn om geslacht over te brengen.
  2. We wilden een breed scala aan zinnen behandelen waar alternatieven voor meerdere geslachten mogelijk zijn.
  3. We wilden ervoor zorgen dat de vertalingen de betekenis van de oorspronkelijke bronzin behouden.

Gender ambiguïteit detecteren

Om gender ambiguïteit in brontekst nauwkeurig te detecteren, gebruiken we een coreference-model om invoer met animeerde zelfstandige naamwoorden te analyseren. Als een bepaalde invoertekst bijvoorbeeld een genderneutraal beroepswoord bevat, willen we alleen gendergerelateerde alternatieven bieden wanneer het geslacht niet kan worden bepaald door andere informatie in de zin. Bijvoorbeeld: Bij het vertalen van een Engelse zin "De advocaat ontmoette haar chauffeur in de hotellobby." in het Frans kunnen we vaststellen dat de advocaat een vrouw is, terwijl het geslacht van de bestuurder onbekend is.

Vertaling van gender ambigue Engelse tekst naar het Frans
Screenshot van vertaling van Engelse tekst "The advocate meet her driver at the hotel lobby." in het Frans.

Alternatieve vertaling genereren

Wanneer de bronzin dubbelzinnig geslachtsgebonden is, onderzoeken we de output van ons vertaalsysteem om te beslissen of een alternatieve genderinterpretatie mogelijk is. Als dat zo is, gaan we verder met het bepalen van de beste manier om de vertaling te herzien. We beginnen met het samenstellen van een reeks kandidaat-doelvertalingen door de oorspronkelijke vertaling te herschrijven. We passen taalkundige beperkingen toe op basis van afhankelijkheidsrelaties om consistentie in de voorgestelde alternatieven te garanderen en de foutieve kandidaten te snoeien.

In veel gevallen, zelfs na het toepassen van onze beperkingen, blijven we echter achter met meerdere kandidaatherschrijvingen voor de geslachtsgebonden alternatieve vertaling. Om de beste optie te bepalen, evalueren we elke kandidaat door deze te scoren met ons vertaalmodel. Door gebruik te maken van het feit dat een goede geslachtsherschrijving ook een nauwkeurige vertaling van de bronzin zal zijn, zijn we in staat om een hoge nauwkeurigheid in onze uiteindelijke uitvoer te garanderen.

Systeemontwerp van genderverbuiging
Een diagram met het systeemontwerp van geslachtsverbuiging.

Gebruikmaken van beheerde online eindpunten in Azure Machine Learning

De gendergerelateerde alternatieve functie in Bing wordt gehost op beheerde online eindpunten in Azure Machine Learning. Beheerde online eindpunten bieden een uniforme interface voor het aanroepen en beheren van modelimplementaties op door Microsoft beheerde rekenkracht op een kant-en-klare manier. Ze stellen ons in staat om te profiteren van schaalbare en betrouwbare eindpunten zonder ons zorgen te maken over infrastructuurbeheer. Deze inferentieomgeving maakt ook de verwerking van grote aantallen aanvragen met lage latentie mogelijk. Onze mogelijkheid om de gender debias-service te maken en te implementeren met de nieuwste frameworks en technologieën is aanzienlijk verbeterd door het gebruik van beheerde inferentiefuncties in Azure Machine Learning. Door gebruik te maken van deze functies, hebben we lage COGS (Cost of Goods Sold) kunnen handhaven en zorgen voor eenvoudige beveiliging en privacycompliance.

Hoe kunt u bijdragen?

Om vooruitgang te vergemakkelijken in het verminderen van gendervooroordelen in MT, brengen we een testcorpus uit met gender-ambigue vertaalvoorbeelden uit het Engels naar het Spaans, Frans en Italiaans. Elke Engelse bronzin gaat vergezeld van meerdere vertalingen, die elke mogelijke geslachtsvariatie behandelen.

Onze testset is gebouwd om uitdagend, morfologisch rijk en taalkundig divers te zijn. Dit corpus heeft een belangrijke rol gespeeld in ons ontwikkelingsproces. Het is ontwikkeld met de hulp van tweetalige taalkundigen met aanzienlijke vertaalervaring. We brengen ook een technisch document uit waarin het testcorpus in detail wordt besproken en de methodologie en hulpmiddelen voor evaluatie.

GATE: Een uitdaging voor gender-ambigue vertaalvoorbeelden – Paper

GATE: Een uitdaging voor gender-ambigue vertaalvoorbeelden – Testset

Weg vooruit

Met dit werk willen we de kwaliteit van MT-output verbeteren in gevallen van dubbelzinnig brongeslacht, en de ontwikkeling van betere en meer inclusieve tools voor natuurlijke taalverwerking (NLP) in het algemeen vergemakkelijken. Onze eerste release richt zich op het vertalen van het Engels naar het Spaans, Frans en Italiaans. In de toekomst zijn we van plan uit te breiden naar nieuwe taalparen en aanvullende scenario's en soorten vooroordelen te behandelen.

Credits:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.