Microsoft Translator ' i masintõlke teenus on selle lehe automaatselt tõlkinud. Lisateave

Microsofti tõlkija blogi

Bingi soopõhised tõlked käsitlevad eelarvamusi tõlkimises

Sooline erapooletus
Sooliste sümbolite 3D-versioon.

Meil on hea meel teatada, et alates tänasest on inglise keelest hispaania, prantsuse või itaalia keelde tõlkimisel saadaval maskuliinsed ja feminiinsed alternatiivsed tõlked. Seda uut funktsiooni saate proovida nii Bingi otsing Ja Bingi tõlkija vertikaalsetele sektoritele.

Viimaste aastate jooksul on masintõlke (MT) valdkonnas toimunud revolutsioon, kuna kasutusele on võetud transformaatormudelid, mis on toonud kaasa tohutuid kvaliteediparandusi. Kuid mudelid, mis on optimeeritud tegelikust maailmast kogutud andmete statistiliste omaduste tabamiseks, õpivad tahtmatult ära või isegi võimendavad neis andmetes esinevaid sotsiaalseid eelarvamusi.

Meie uusim versioon on samm ühe sellise eelarvamuse, täpsemalt MT-süsteemides levinud soolise eelarvamuse vähendamise suunas. Bing Translator on alati andnud sisendlause jaoks üheainsa tõlke, isegi kui tõlgetes võis olla muid soolisi variante, sealhulgas feminiinseid ja maskuliinsed variante. Vastavalt Microsofti vastutustundliku tehisintellekti põhimõtted, tahame tagada, et pakume korrektseid alternatiivseid tõlkeid ja oleme kaasavamad kõikidele sugupooltele. Selle teekonna raames on meie esimene samm pakkuda nais- ja meessugulaskeelseid tõlkevariante.

Eri keeltes väljendatakse sugu erinevalt. Näiteks inglise keeles võib sõna "advokaat" viidata nii mees- kui ka naissoost isikule, kuid hispaania keeles võib see tähendada nii mees- kui ka naissoost isikut, abogada viitab naisjuristile, samas kui abogado viitab meessoost inimesele. Kui puudub teave sellise noomeni nagu "advokaat" soo kohta lähtelauses, võivad MT-mudelid valida sihtkeele noomeni jaoks suvalise soo. Sageli on need meelevaldsed soolised määrangud kooskõlas stereotüüpidega, jäädvustades kahjulikke ühiskondlikke eelarvamusi (Stanovsky et al., 2019; Ciora et al., 2021) ja viies tõlgeteni, mis ei ole täielikult täpsed.

Alljärgnevas näites märkate, et sooneutraalseid lauseid inglise keelest hispaania keelde tõlkides järgib tõlgitud tekst stereotüüpset soorolli, st advokaat on tõlgitud kui mees.

Soolise eelarvamusega tõlge
Ekraanipilt ingliskeelse teksti "Let's get our lawyer's opinion on this issue." tõlkimisest hispaania keelde, millel on sooline kallutatus.

Kuna lähtelauses puudub kontekst, mis viitaks advokaadi soole, oleks tõlge, mille puhul eeldatakse, et tegemist on kas mees- või naisadvokaadiga, mõlemal juhul kehtiv. Nüüd toodab Bing Translator tõlkeid nii nais- kui ka meessoost vormiga.

Sooliselt mitmetähendusliku ingliskeelse teksti tõlkimine hispaania keelde
Ekraanipilt ingliskeelse teksti "Let's get our lawyer's opinion on this issue." tõlkimisest hispaania keelde, millel on soospetsiifilised tõlked.

Süsteemi kavandamine

Meie eesmärk oli kujundada meie süsteem nii, et see vastaks järgmistele põhikriteeriumidele, mis võimaldavad pakkuda soopõhiseid alternatiive:

  1. Feminiinse ja maskuliinse variandi erinevused peaksid olema minimaalsed, välja arvatud need, mis on vajalikud soo edasiandmiseks.
  2. Tahtsime hõlmata laia valikut lauseid, kus on võimalik mitu soolist alternatiivi.
  3. Tahtsime tagada, et tõlked säilitaksid originaallause tähenduse.

Soolise mitmetähenduslikkuse tuvastamine

Selleks, et täpselt tuvastada soolist mitmetähenduslikkust lähtetekstis, kasutame elulisi nimisõnu sisaldavate sisendite analüüsimiseks coreference-mudelit. Näiteks kui antud sisendtekst sisaldab sooneutraalset kutsesõna, tahame pakkuda selle jaoks soopõhiseid alternatiive ainult siis, kui selle sugu ei ole võimalik kindlaks teha lause muu teabe põhjal. Näiteks: Tõlkides ingliskeelset lauset "The lawyer met her driver at the hotel lobby." prantsuse keelde, saame kindlaks teha, et advokaat on naissoost, samas kui autojuhi sugu on teadmata.

Sooliselt mitmetähendusliku ingliskeelse teksti tõlkimine prantsuse keelde
Ekraanipilt ingliskeelse teksti "The lawyer met her driver at the hotel lobby." tõlkimisest prantsuse keelde.

Alternatiivse tõlke genereerimine

Kui lähtelause on mitmetähenduslik, uurime meie tõlkesüsteemi väljundit, et otsustada, kas alternatiivne sooline tõlgendus on võimalik. Kui see on nii, siis jätkame tõlke parandamise parima viisi kindlaksmääramist. Alustuseks koostame sihtmärgiks olevate tõlkekandidaatide kogumi, kirjutades originaaltõlke ümber. Me rakendame sõltuvussuhetel põhinevaid keelelisi piiranguid, et tagada pakutud alternatiivide järjepidevus, ja eemaldame vigased kandidaadid.

Paljudel juhtudel on aga isegi pärast meie piirangute rakendamist jäänud mitu alternatiivse soopärase tõlke kandidaati. Parima variandi kindlaksmääramiseks hindame iga kandidaati, hinnates seda meie tõlkemudeli abil. Kasutades asjaolu, et hea sooline ümberkirjutus on ka lähtelause täpne tõlge, suudame tagada lõpptulemuse suure täpsuse.

Süsteemi disain soolise tagasivalgustuse kohta
Skeem, mis näitab süsteemi ülesehitust soolise tagasipöördumise kohta.

Hallatavate veebipõhiste lõpp-punktide kasutamine Azure Machine Learningis

Bingi sooline alternatiivne funktsioon asub aadressil hallatavad veebipõhised lõpp-punktid Azure Machine Learning. Hallatavad veebipõhised lõpp-punktid pakuvad ühtset liidest, et käivitada ja hallata mudelite juurutamist Microsofti hallatavas arvutis võtmetaoliselt. Need võimaldavad kasutada ära skaleeritavaid ja usaldusväärseid lõpp-punkte, ilma et peaks muretsema infrastruktuuri haldamise pärast. See järelduskeskkond võimaldab ka suure hulga päringute töötlemist väikese latentsusega. Meie suutlikkus luua ja juurutada soo debias teenust uusimate raamistike ja tehnoloogiate abil on oluliselt paranenud tänu Azure Machine Learningi hallatud järeldusfunktsioonide kasutamisele. Neid funktsioone kasutades oleme suutnud säilitada madala COGSi (tootmiskulu) ning tagada lihtsa turvalisuse ja privaatsuse vastavuse.

Kuidas saate te oma panuse anda?

Et hõlbustada soolise eelarvamuse vähendamist MT-s, avaldame testkorpuse, mis sisaldab sooliselt üheselt mõistetavaid tõlkenäiteid inglise keelest hispaania, prantsuse ja itaalia keelde. Igale ingliskeelsele lähtelausele on lisatud mitu tõlget, mis hõlmavad kõiki võimalikke soolisi variante.

Meie testkogum on koostatud nii, et see oleks keeruline, morfoloogiliselt rikas ja keeleliselt mitmekesine. See korpus on olnud meie arendusprotsessis väga oluline. See töötati välja märkimisväärse tõlkekogemusega kakskeelsete keeleteadlaste abiga. Avaldame ka tehnilise dokumendi, milles käsitletakse üksikasjalikult testkorpust ning hindamismetoodikat ja -vahendeid.

GATE: väljakutse soolise võrdõiguslikkuse tõlkenäidete koostamiseks - paber

GATE: Väljakutse komplekt sooliselt mitmemääratletud tõlkenäidete jaoks - testikomplekt

Edasine tee

Selle töö abil püüame parandada MT-väljundite kvaliteeti mitmetähendusliku lähtesoo puhul ning aidata kaasa paremate ja kaasavamate loomuliku keele töötlemise (NLP) vahendite väljatöötamisele üldiselt. Meie esialgne versioon keskendub tõlkimisele inglise keelest hispaania, prantsuse ja itaalia keelde. Edaspidi plaanime laiendada seda uutele keelepaaridele ning hõlmata täiendavaid stsenaariume ja eelarvamuste tüüpe.

Krediit:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.