Siirry päähistoria
Kääntäjä
Microsoft Translatorin kone käännös palvelu on kääntänyt tämän sivun automaattisesti. Opi lisää

Microsoft Kääntäjä blogi

Bingin sukupuolittuneet käännökset puuttuvat käännöstyössä esiintyviin ennakkoluuloihin.

Sukupuolten väliset erot
Sukupuolisymbolien 3D-muotoilu.

Olemme innoissamme voidessamme ilmoittaa, että tästä päivästä lähtien maskuliiniset ja feminiiniset vaihtoehtoiset käännökset ovat käytettävissä, kun käännetään englannista espanjaan, ranskaan tai italiaan. Voit kokeilla tätä uutta ominaisuutta sekä Bing-haku Ja Bing kääntäjä vertikaalit.

Muutaman viime vuoden aikana konekääntämisen (MT) ala on mullistunut muuntomallien myötä, mikä on johtanut valtavaan laadun paranemiseen. Mallit, jotka on optimoitu ottamaan huomioon reaalimaailmasta kerätyn datan tilastolliset ominaisuudet, oppivat kuitenkin tahattomasti tai jopa vahvistavat datassa esiintyviä sosiaalisia ennakkoluuloja.

Uusin julkaisumme on askel kohti yhden näistä ennakkoluuloista, erityisesti MT-järjestelmissä vallitsevan sukupuolisen ennakkoluulon vähentämistä. Bing Translator on aina tuottanut yhden ainoan käännöksen syötetystä lauseesta, vaikka käännöksissä olisi voinut olla muitakin sukupuolivaihtoehtoja, kuten feminiinisiä ja maskuliinisia variantteja. Mukaan Microsoftin vastuullisen tekoälyn periaatteet, haluamme varmistaa, että tarjoamme oikeita vaihtoehtoisia käännöksiä ja että kaikki sukupuolet otetaan paremmin huomioon. Osana tätä matkaa ensimmäinen askeleemme on tarjota feminiinisiä ja maskuliinisia käännösvaihtoehtoja.

Sukupuolta ilmaistaan eri kielissä eri tavoin. Esimerkiksi englannin kielessä sana lawyer voi viitata joko mies- tai naispuoliseen henkilöön, mutta espanjan kielessä, abogada viittaisi naispuoliseen asianajajaan, kun taas abogado viittaisi miespuoliseen. Jos lähdelauseessa ei ole tietoa "asianajajan" kaltaisen substantiivin sukupuolesta, MT-mallit saattavat valita kohdekielen substantiiville mielivaltaisen sukupuolen. Usein nämä mielivaltaiset sukupuolenmääritykset ovat stereotypioiden mukaisia, mikä ylläpitää haitallisia yhteiskunnallisia ennakkoluuloja (Stanovsky et al., 2019; Ciora et al., 2021) ja johtaa käännöksiin, jotka eivät ole täysin tarkkoja.

Alla olevassa esimerkissä huomaat, että kun käännät sukupuolineutraaleja lauseita englannista espanjaan, käännetty teksti noudattaa stereotyyppistä sukupuoliroolia, eli lakimies käännetään mieheksi.

Käännös, jossa on sukupuoleen perustuva ennakkoasenne
Kuvakaappaus englanninkielisen tekstin "Let's get our lawyer's opinion on this issue." käännöksestä espanjan kielelle, jossa on sukupuolittuneita piirteitä.

Koska lähdelauseessa ei ole asiayhteyttä, joka viittaisi asianajajan sukupuoleen, käännös, jossa oletetaan joko mies- tai naispuolinen asianajaja, olisi kelvollinen. Nyt Bing Translator tuottaa käännöksiä, joissa on sekä feminiininen että maskuliininen muoto.

Sukupuoleltaan moniselitteisen englanninkielisen tekstin kääntäminen espanjaksi
Kuvakaappaus englanninkielisen tekstin "Let's get our lawyer's opinion on this issue." kääntämisestä espanjan kielelle, jossa on sukupuolisidonnaiset käännökset.

Järjestelmän suunnittelu

Pyrimme suunnittelemaan järjestelmämme siten, että se täyttää seuraavat keskeiset kriteerit sukupuolittuneiden vaihtoehtojen tarjoamiseksi:

  1. Feminiini- ja maskuliinivarianttien eroavaisuuksien pitäisi olla minimaalisia, lukuun ottamatta niitä, jotka ovat tarpeen sukupuolen ilmaisemiseksi.
  2. Halusimme kattaa laajan valikoiman lauseita, joissa useat sukupuolittuneet vaihtoehdot ovat mahdollisia.
  3. Halusimme varmistaa, että käännökset säilyttävät alkuperäisen lähdelauseen merkityksen.

Sukupuolen moniselitteisyyden havaitseminen

Jotta sukupuolen moniselitteisyys voitaisiin havaita lähdetekstissä tarkasti, käytämme coreference-mallia analysoidaksemme syötteitä, jotka sisältävät animoituja substantiiveja. Jos esimerkiksi syöteteksti sisältää sukupuolineutraalin ammattisanan, haluamme tarjota sille sukupuolittuneita vaihtoehtoja vain silloin, kun sen sukupuolta ei voida määrittää lauseen muiden tietojen perusteella. Esimerkiksi: Kääntämällä englanninkielisen lauseen "The lawyer met her driver at the hotel lobby." ranskaksi voimme todeta, että asianajaja on nainen, kun taas kuljettajan sukupuoli on tuntematon.

Sukupuoleltaan moniselitteisen englanninkielisen tekstin kääntäminen ranskaksi
Kuvakaappaus englanninkielisen tekstin "The lawyer met her driver at the hotel lobby." kääntämisestä ranskan kielelle.

Vaihtoehtoisen käännöksen luominen

Kun lähdelause on moniselitteisesti sukupuolittunut, tarkastelemme käännösjärjestelmämme tulosta päättääkseen, onko vaihtoehtoinen sukupuolitulkinta mahdollinen. Jos näin on, määritetään paras tapa tarkistaa käännöstä. Aloitamme rakentamalla joukon ehdollisia kohdekäännöksiä kirjoittamalla alkuperäisen käännöksen uudelleen. Sovellamme riippuvuussuhteisiin perustuvia kielellisiä rajoitteita varmistaaksemme ehdotettujen vaihtoehtojen johdonmukaisuuden ja karsimme virheelliset ehdokkaat.

Monissa tapauksissa, vaikka rajoituksiamme sovellettaisiinkin, jäljelle jää kuitenkin useita vaihtoehtoisen sukupuolittuneen käännöksen uudelleenkirjoitusehdokkaita. Parhaan vaihtoehdon määrittämiseksi arvioimme jokaisen ehdokkaan pisteyttämällä sen käännösmallimme avulla. Hyödyntämällä sitä tosiasiaa, että hyvä sukupuolenmukainen uudelleenkirjoitus on myös tarkka käännös lähdelauseesta, pystymme varmistamaan, että lopputuloksemme on erittäin tarkka.

Sukupuolen uudelleentarkastelun järjestelmäsuunnittelu
Kaavio, jossa esitetään sukupuolen uudelleentunnistamisen järjestelmäsuunnittelu.

Hallittujen online-päätepisteiden hyödyntäminen Azure Machine Learningissa

Bingin sukupuolittunut vaihtoehtoinen ominaisuus sijaitsee osoitteessa hallitut online-päätepisteet Azure Machine Learning -ohjelmassa. Hallitut online-päätepisteet tarjoavat yhtenäisen käyttöliittymän mallien käyttöönoton käynnistämiseen ja hallintaan Microsoftin hallinnoimassa laskentajärjestelmässä avaimet käteen -periaatteella. Niiden avulla voimme hyödyntää skaalautuvia ja luotettavia päätepisteitä ilman huolta infrastruktuurin hallinnasta. Tämä päättely-ympäristö mahdollistaa myös suurten pyyntöjen käsittelyn pienellä viiveellä. Kykymme luoda ja ottaa käyttöön gender debias -palvelu uusimmilla kehyksillä ja teknologioilla on parantunut huomattavasti Azure Machine Learningin hallinnoitujen päättelyominaisuuksien avulla. Näitä ominaisuuksia hyödyntämällä olemme pystyneet pitämään COGS:n (Cost of Goods Sold) alhaisena ja varmistamaan suoraviivaisen turvallisuuden ja yksityisyydensuojan noudattamisen.

Miten voit osallistua?

Helpottaaksemme edistymistä sukupuolittuneiden vääristymien vähentämisessä tekstinmuokkauksessa julkaisemme testikorpuksen, joka sisältää sukupuolittuneita käännösesimerkkejä englannista espanjaan, ranskaan ja italiaan. Jokaiseen englanninkieliseen lähdelauseeseen liittyy useita käännöksiä, jotka kattavat kaikki mahdolliset sukupuolen vaihtelut.

Koejoukkomme on rakennettu haastavaksi, morfologisesti monipuoliseksi ja kielellisesti monimuotoiseksi. Tämä testikokonaisuus on auttanut kehittämisprosessissamme. Se kehitettiin kaksikielisten kielitieteilijöiden avulla, joilla on merkittävää käännöskokemusta. Julkaisemme myös teknisen asiakirjan, jossa käsitellään yksityiskohtaisesti testikorpusta sekä arviointimenetelmiä ja -välineitä.

GATE: haaste sukupuolittuneille käännösesimerkeille - Paperi

GATE: Sukupuoleltaan moniselitteisten käännösesimerkkien haastesarja - Testisarja

Tie eteenpäin

Tämän työn avulla pyrimme parantamaan tekstinmuunnostulosten laatua tapauksissa, joissa lähdesukupuoli on moniselitteinen, sekä helpottamaan parempien ja osallistavampien luonnollisen kielen prosessointityökalujen (NLP) kehittämistä yleensä. Ensimmäinen julkaisumme keskittyy kääntämiseen englannista espanjaan, ranskaan ja italiaan. Jatkossa aiomme laajentaa julkaisua uusiin kielipareihin sekä kattaa uusia skenaarioita ja vääristymätyyppejä.

Krediitit:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.