Gå til hovedinnhold
Oversetter
Denne siden er automatisk oversatt av Microsoft Translator sin maskinoversettelsestjeneste. få mer informasjon

Microsoft oversetter blogg

Bings kjønnsbestemte oversettelser bekjemper skjevheter i oversettelser

Kjønnsutjevning
3D-gjengivelse av kjønnssymboler.

Vi er glade for å kunngjøre at det fra og med i dag er mulig å velge mellom maskulinum og femininum når du oversetter fra engelsk til spansk, fransk eller italiensk. Du kan prøve denne nye funksjonen i både Bing Søk Og Bing oversetter vertikaler.

I løpet av de siste årene har feltet maskinoversettelse (MT) blitt revolusjonert av fremveksten av transformasjonsmodeller, noe som har ført til enorme kvalitetsforbedringer. Modeller som er optimalisert for å fange opp de statistiske egenskapene til data som er samlet inn fra den virkelige verden, lærer imidlertid utilsiktet eller til og med forsterker sosiale skjevheter som finnes i disse dataene.

Vår nyeste versjon er et skritt i retning av å redusere en av disse skjevhetene, nemlig kjønnsskjevheten som er utbredt i MT-systemer. Bing Translator har alltid produsert én enkelt oversettelse for en inndatasetning, selv når oversettelsene kunne ha hatt andre kjønnsvarianter, inkludert feminine og maskuline varianter. I samsvar med Microsofts prinsipper for ansvarlig AIønsker vi å sikre at vi tilbyr korrekte alternative oversettelser og er mer inkluderende for alle kjønn. Som en del av denne reisen er vårt første skritt å tilby feminine og maskuline oversettelsesvarianter.

Kjønn uttrykkes forskjellig på forskjellige språk. På engelsk kan for eksempel ordet lawyer referere til både en mannlig og en kvinnelig person, men på spansk er det motsatt, abogada ville henvise til en kvinnelig advokat, mens abogado vil referere til et hankjønn. I mangel av informasjon om kjønnet til et substantiv som "advokat" i en kildesetning, kan MT-modeller ty til å velge et vilkårlig kjønn for substantivet på målspråket. Ofte er disse vilkårlige kjønnstildelingene i tråd med stereotypier, noe som opprettholder skadelige samfunnsmessige skjevheter (Stanovsky et al., 2019; Ciora et al., 2021) og fører til oversettelser som ikke er helt nøyaktige.

I eksemplet nedenfor ser du at når du oversetter kjønnsnøytrale setninger fra engelsk til spansk, følger den oversatte teksten den stereotype kjønnsrollen, dvs. at advokat oversettes som en mann.

Oversettelse med kjønnsskjevhet
Skjermbilde av oversettelse av engelsk tekst "Let's get our lawyer's opinion on this issue." til spansk med kjønnsskjevhet.

Ettersom det ikke er noen kontekst i kildesetningen som antyder kjønnet til advokaten, vil det å produsere en oversettelse med antakelsen om enten en mannlig eller kvinnelig advokat være gyldig for begge. Nå produserer Bing Translator oversettelser med både feminine og maskuline former.

Oversettelse av kjønnstvetydig engelsk tekst til spansk
Skjermbilde av oversettelse av engelsk tekst "Let's get our lawyer's opinion on this issue." til spansk med kjønnsspesifikke oversettelser.

Systemets utforming

Vi tok sikte på å utforme systemet vårt slik at det oppfyller følgende nøkkelkriterier for å tilby kjønnsbaserte alternativer:

  1. De feminine og maskuline variantene bør ha minimale forskjeller bortsett fra de som er nødvendige for å formidle kjønn.
  2. Vi ønsket å dekke et bredt spekter av setninger der flere kjønnede alternativer er mulige.
  3. Vi ønsket å sikre at oversettelsene bevarer betydningen av den opprinnelige kildesetningen.

Oppdage tvetydighet med hensyn til kjønn

For å nøyaktig oppdage kjønnstvetydighet i kildeteksten bruker vi en koreferansemodell for å analysere inndata som inneholder animerte substantiver. For eksempel, hvis en gitt inngangstekst inneholder et kjønnsnøytralt yrkesord, vil vi bare gi kjønnsbestemte alternativer for det når kjønnet ikke kan bestemmes av annen informasjon i setningen. For eksempel: Når vi oversetter en engelsk setning "Advokaten møtte sjåføren sin i hotellobbyen." til fransk, kan vi fastslå at advokaten er en kvinne, mens sjåførens kjønn er ukjent.

Oversettelse av kjønnstvetydig engelsk tekst til fransk
Skjermbilde av oversettelse av engelsk tekst "The lawyer met her driver at the hotel lobby." til fransk.

Generere alternativ oversettelse

Når kildesetningen er tvetydig kjønnet, undersøker vi oversettelsessystemets resultater for å avgjøre om det er mulig å finne en alternativ kjønnetolkning. I så fall går vi videre for å finne den beste måten å revidere oversettelsen på. Vi begynner med å konstruere et sett med mulige måloversettelser ved å omskrive den opprinnelige oversettelsen. Vi bruker språklige begrensninger basert på avhengighetsrelasjoner for å sikre konsistens i de foreslåtte alternativene og beskjærer de feilaktige kandidatene.

I mange tilfeller sitter vi imidlertid igjen med flere omskrivingskandidater for den kjønnede alternative oversettelsen, selv etter at vi har brukt begrensningene våre. For å finne det beste alternativet vurderer vi hver kandidat ved å gi den poeng med oversettelsesmodellen vår. Ved å utnytte det faktum at en god kjønnet omskriving også vil være en nøyaktig oversettelse av kildesetningen, kan vi sikre høy nøyaktighet i sluttresultatet.

Systemutforming av kjønnsrefleksjon
Et diagram som viser systemutforming av kjønnsrefleksjon.

Utnyttelse av administrerte nettbaserte endepunkter i Azure Machine Learning

Den kjønnede alternative funksjonen i Bing er vert på administrerte nettbaserte endepunkter i Azure Machine Learning. Administrerte nettbaserte endepunkter gir et enhetlig grensesnitt for å påkalle og administrere modelldistribusjoner på Microsoft-administrert databehandling på en nøkkelferdig måte. De gjør det mulig for oss å dra nytte av skalerbare og pålitelige endepunkter uten å være bekymret for infrastrukturadministrasjon. Dette slutningsmiljøet gjør det også mulig å behandle et stort antall forespørsler med lav ventetid. Vår evne til å opprette og distribuere gender debias-tjenesten med de nyeste rammeverkene og teknologiene har blitt betydelig forbedret gjennom bruk av administrerte slutningsfunksjoner i Azure Machine Learning. Ved å utnytte disse funksjonene har vi vært i stand til å opprettholde lave COGS (Cost of Goods Sold) og sikre enkel overholdelse av sikkerhet og personvern.

Hvordan kan du bidra?

For å legge til rette for å redusere kjønnsskjevheter i MT, lanserer vi et testkorpus med eksempler på kjønnstvetydige oversettelser fra engelsk til spansk, fransk og italiensk. Hver engelske kildesetning ledsages av flere oversettelser som dekker alle mulige kjønnsvariasjoner.

Vårt testsett er konstruert for å være utfordrende, morfologisk rikt og språklig mangfoldig. Dette korpuset har spilt en viktig rolle i utviklingsprosessen vår. Det ble utviklet ved hjelp av en tospråklig lingvist med betydelig oversettelseserfaring. Vi utgir også et teknisk dokument som beskriver testkorpuset i detalj, samt metoden og verktøyene for evaluering.

GATE: En utfordring for kjønnstvetydige oversettelseseksempler - artikkel

GATE: Et oppgavesett for eksempler på oversettelser som ikke er entydige med hensyn til kjønn - testsett

Veien videre

Gjennom dette arbeidet tar vi sikte på å forbedre kvaliteten på MT-resultatene i tilfeller med tvetydig kildekjønn, samt legge til rette for utvikling av bedre og mer inkluderende verktøy for naturlig språkbehandling (NLP) generelt. Vår første versjon fokuserer på oversettelse fra engelsk til spansk, fransk og italiensk. Fremover planlegger vi å utvide til nye språkpar, samt dekke flere scenarier og typer skjevheter.

Kreditter:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.