Gå til hovedindholdet
Oversætter
Denne side er automatisk oversat af Microsoft Translator maskinoversættelsestjeneste. Lær mere

Microsoft Translator blog

Bings kønsopdelte oversættelser tager fat på fordomme i oversættelser

Afværgelse af kønsbestemthed
3D-gengivelse af kønssymboler.

Vi er glade for at kunne meddele, at der fra i dag er maskuline og feminine alternative oversættelser tilgængelige, når du oversætter fra engelsk til spansk, fransk eller italiensk. Du kan afprøve denne nye funktion i både Bing-søgning Og Bing Oversætter vertikale områder.

I løbet af de sidste par år er området maskinoversættelse blevet revolutioneret af indførelsen af transformermodeller, hvilket har ført til enorme kvalitetsforbedringer. Men modeller, der er optimeret til at indfange de statistiske egenskaber af data indsamlet fra den virkelige verden, lærer utilsigtet eller forstærker endda sociale skævheder, der findes i disse data.

Vores seneste version er et skridt i retning af at reducere en af disse skævheder, især kønsskævheder, som er fremherskende i MT-systemer. Bing Translator har altid produceret en enkelt oversættelse for en indtastet sætning, selv når oversættelserne kunne have haft andre kønsvariationer, herunder feminine og maskuline varianter. I overensstemmelse med den Microsofts principper for ansvarlig AIVi ønsker at sikre, at vi leverer korrekte alternative oversættelser og er mere rummelige for alle køn. Som en del af denne rejse er vores første skridt at levere feminine og maskuline oversættelsesvarianter.

Køn udtrykkes forskelligt på de forskellige sprog. På engelsk kan ordet advokat f.eks. henvise til enten en mandlig eller kvindelig person, men på spansk kan ordet advokat henvise til en mandlig eller kvindelig person, abogada ville henvise til en kvindelig advokat, mens abogado ville henvise til en mandlig. I mangel af oplysninger om kønnet på et substantiv som "advokat" i en kildesætning kan MT-modellerne ty til at vælge et vilkårligt køn for substantivet på målsproget. Ofte stemmer disse vilkårlige kønstildelinger overens med stereotyper, hvilket viderefører skadelige samfundsmæssige fordomme (Stanovsky et al., 2019; Ciora et al., 2021) og fører til oversættelser, der ikke er helt nøjagtige.

I eksemplet nedenfor kan du se, at når du oversætter kønsneutrale sætninger fra engelsk til spansk, følger den oversatte tekst den stereotype kønsrolle, dvs. at advokat oversættes som værende en mand.

Oversættelse med kønsbestemthed
Skærmbillede af oversættelse af den engelske tekst "Lad os få vores advokats mening om dette spørgsmål." til spansk med kønsbestemt fordom.

Da der ikke er nogen kontekst i kildesætningen, der antyder advokatens køn, ville en oversættelse, der antager, at der er tale om enten en mandlig eller kvindelig advokat, være gyldig. Nu producerer Bing Translator oversættelser med både feminine og maskuline former.

Oversættelse af kønsopdelt engelsk tekst til spansk
Skærmbillede af oversættelse af den engelske tekst "Let's get our lawyer's opinion on this issue." til spansk sprog med kønsspecifikke oversættelser.

Systemdesign

Vi tilstræbte at designe vores system således, at det opfyldte følgende hovedkriterier for at tilbyde kønsbestemte alternativer:

  1. De feminine og maskuline varianter bør have minimale forskelle, bortset fra dem, der er nødvendige for at formidle kønnet.
  2. Vi ønskede at dække en bred vifte af sætninger, hvor flere kønsbestemte alternativer er mulige.
  3. Vi ønskede at sikre, at oversættelserne bevarer betydningen af den oprindelige kildesætning.

Opsporing af tvetydighed mellem kønnene

For at kunne registrere kønsrelaterede tvetydigheder i kildetekster anvender vi en kerneferencemodel til at analysere input, der indeholder animerede navneord. Hvis en given indgangstekst f.eks. indeholder et kønsneutralt professionsord, ønsker vi kun at give kønnede alternativer for det, når dets køn ikke kan bestemmes ud fra andre oplysninger i sætningen. For eksempel: Ved oversættelse af en engelsk sætning "The lawyer met her driver at the hotel lobby." til fransk kan vi fastslå, at advokaten er en kvinde, mens chaufførens køn er ukendt.

Oversættelse af kønsopdelt engelsk tekst til fransk
Skærmbillede af oversættelse af den engelske tekst "Advokaten mødte sin chauffør i hotellets lobby." til fransk.

Generering af alternativ oversættelse

Når kildesætningen er tvetydigt kønsbestemt, undersøger vi vores oversættelsessystems output for at afgøre, om en alternativ kønsbestemt fortolkning er mulig. Hvis det er tilfældet, går vi videre for at finde den bedste måde at revidere oversættelsen på. Vi begynder med at konstruere et sæt af kandidatmåloversættelser ved at omskrive den oprindelige oversættelse. Vi anvender sproglige begrænsninger baseret på afhængighedsrelationer for at sikre konsistensen i de foreslåede alternativer og fjerner de fejlagtige kandidater.

Men i mange tilfælde står vi, selv efter at have anvendt vores begrænsninger, tilbage med flere mulige omskrivninger af den kønsbestemte alternative oversættelse. For at bestemme den bedste løsning evaluerer vi hver enkelt kandidat ved at score den med vores oversættelsesmodel. Ved at udnytte det faktum, at en god kønsrelateret omskrivning også vil være en nøjagtig oversættelse af kildesætningen, kan vi sikre en høj nøjagtighed i vores endelige resultat.

Systemets udformning af kønsafspejling
Et diagram, der viser systemets udformning af genindføling af køn.

Udnyttelse af administrerede online slutpunkter i Azure Machine Learning

Den kønsopdelte alternative funktion i Bing er hostet på administrerede online slutpunkter i Azure Machine Learning. Administrerede online endpoints giver en ensartet grænseflade til at påkalde og administrere modelimplementeringer på Microsoft-administreret compute på en nøglefærdig måde. De giver os mulighed for at drage fordel af skalerbare og pålidelige endpoints uden at skulle bekymre os om infrastrukturstyring. Dette inferencemiljø gør det også muligt at behandle et stort antal forespørgsler med lav latenstid. Vores evne til at skabe og implementere kønsdebias-tjenesten med de nyeste rammer og teknologier er blevet væsentligt forbedret gennem brugen af forvaltede inferensfunktioner i Azure Machine Learning. Ved at udnytte disse funktioner har vi været i stand til at opretholde lave COGS (Cost of Goods Sold) og sikre ligefrem overholdelse af sikkerhed og privatlivets fred.

Hvordan kan du bidrage?

For at fremme fremskridt med hensyn til at reducere kønsforstyrrelser i MT frigiver vi et testkorpus, der indeholder eksempler på kønsambiøse oversættelser fra engelsk til spansk, fransk og italiensk. Hver engelsk kildesætning er ledsaget af flere oversættelser, der dækker alle mulige kønsvariationer.

Vores testsæt er konstrueret således, at det er udfordrende, morfologisk rigt og sprogligt varieret. Dette korpus har været afgørende for vores udviklingsproces. Det blev udviklet med hjælp fra en tosproget lingvist med stor oversættelseserfaring. Vi udgiver også et teknisk dokument, som detaljeret diskuterer testkorpuset og metodologien og værktøjerne til evaluering.

GATE: En udfordring i forbindelse med eksempler på kønsopdelte oversættelser - Paper

GATE: Et sæt udfordringer for kønsbestemte oversættelseseksempler - Testsæt

Vejen fremad

Gennem dette arbejde sigter vi mod at forbedre kvaliteten af MT-output i tilfælde af tvetydigt kildesprog og at fremme udviklingen af bedre og mere inkluderende værktøjer til behandling af naturligt sprog (NLP) generelt. Vores første udgave fokuserer på oversættelse fra engelsk til spansk, fransk og italiensk. Fremover planlægger vi at udvide til nye sprogpar samt at dække yderligere scenarier og typer af fordomme.

Credits:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.