Bing tulkojumi, kuros tiek risināti ar dzimumu saistīti jautājumi, novērš neobjektivitāti tulkojumos
Ar prieku paziņojam, ka no šodienas ir pieejami vīriešu un sieviešu dzimtes alternatīvie tulkojumi, ja tulkojat no angļu valodas uz spāņu, franču vai itāļu valodu. Šo jauno funkciju varat izmēģināt gan Bing meklēšana Un Bing Translator vertikāli.
Pēdējo gadu laikā mašīntulkošanas (MT) jomā ir notikušas revolūcijas, pateicoties transformatoru modeļiem, kas ļāva ievērojami uzlabot kvalitāti. Tomēr modeļi, kas optimizēti, lai atspoguļotu no reālās pasaules savākto datu statistiskās īpašības, netīšām iemācās vai pat pastiprina šajos datos konstatētos sociālos aizspriedumus.
Mūsu jaunākais izdevums ir solis ceļā uz to, lai mazinātu vienu no šiem aizspriedumiem, proti, dzimumu aizspriedumus, kas ir izplatīti MT sistēmās. Bing Translator ievades teikumam vienmēr ir izveidojis vienu tulkojumu, pat ja tulkojumam varēja būt citas dzimtes variācijas, tostarp sieviešu un vīriešu dzimtē. Saskaņā ar Microsoft atbildīgā mākslīgā intelekta principi, mēs vēlamies nodrošināt pareizus alternatīvus tulkojumus un nodrošināt, lai tie būtu saprotamāki visiem dzimumiem. Šajā ceļā mūsu pirmais solis ir nodrošināt tulkojumu variantus sieviešu un vīriešu dzimtē.
Dažādās valodās dzimums tiek izteikts dažādi. Piemēram, angļu valodā ar vārdu lawyer var apzīmēt gan vīrieti, gan sievieti, bet spāņu valodā, abogada attiektos uz sievieti juristi, bet abogado attiektos uz vīrieti. Ja nav informācijas par tāda lietvārda kā "jurists" dzimumu avota teikumā, MT modeļi var izvēlēties patvaļīgu dzimumu mērķa valodas lietvārdam. Bieži vien šie patvaļīgie dzimtes piešķīrumi atbilst stereotipiem, tādējādi nostiprinot kaitīgus sabiedrības aizspriedumus (Stanovsky et al., 2019; Ciora et al., 2021) un radot tulkojumus, kas nav pilnībā precīzi.
Tālāk dotajā piemērā redzams, ka, tulkojot dzimtes ziņā neitrālus teikumus no angļu uz spāņu valodu, tulkotais teksts atbilst stereotipiskai dzimtes lomai, t. i., jurists tiek tulkots kā vīrietis.
Tā kā oriģināla teikumā nav konteksta, kas norādītu uz jurista dzimumu, tulkojums ar pieņēmumu, ka jurists ir vīrietis vai sieviete, būtu derīgs. Tagad Bing Translator sagatavo tulkojumus gan sieviešu, gan vīriešu dzimtē.
Sistēmas izveide
Mūsu mērķis bija izstrādāt mūsu sistēmu, lai tā atbilstu šādiem galvenajiem kritērijiem dzimumu alternatīvu nodrošināšanai:
- Sievišķās un vīrišķās dzimtes variantiem ir jābūt minimālām atšķirībām, izņemot tās, kas nepieciešamas dzimuma izteikšanai.
- Mēs vēlējāmies aptvert plašu teikumu klāstu, kuros iespējamas vairākas dzimtes alternatīvas.
- Mēs vēlējāmies nodrošināt, lai tulkojumos tiktu saglabāta oriģinālā izteikuma nozīme.
Dzimuma neskaidrību noteikšana
Lai precīzi noteiktu dzimtes neskaidrības avota tekstā, mēs izmantojam korelācijas modeli, lai analizētu ievaddatus, kas satur atveidotus lietvārdus. Piemēram, ja dotajā ievades tekstā ir dzimtes ziņā neitrāls profesijas vārds, mēs vēlamies tam sniegt dzimtes alternatīvas tikai tad, ja tā dzimumu nevar noteikt pēc citas teikumā esošās informācijas. Piemēram: Piemēram, tulkojot angļu valodas teikumu "The lawyer met her driver at the hotel lobby." uz franču valodu, mēs varam noteikt, ka advokāte ir sieviete, bet vadītāja dzimums nav zināms.
Alternatīvā tulkojuma ģenerēšana
Ja avota teikums ir divdomīgs dzimtes ziņā, mēs pārbaudām mūsu tulkošanas sistēmas rezultātu, lai izlemtu, vai ir iespējama alternatīva dzimtes interpretācija. Ja tas tā ir, mēs turpinām noteikt labāko veidu, kā pārskatīt tulkojumu. Sākam ar mērķa tulkojumu kandidātu kopuma izveidi, pārrakstot oriģinālo tulkojumu. Mēs piemērojam lingvistiskus ierobežojumus, pamatojoties uz atkarību attiecībām, lai nodrošinātu ierosināto alternatīvo tulkojumu konsekvenci, un izsvītrojam kļūdainos kandidātus.
Tomēr daudzos gadījumos, pat pēc mūsu ierobežojumu piemērošanas, mums paliek vairāki dzimtes alternatīvā tulkojuma pārrakstīšanas varianti. Lai noteiktu labāko variantu, mēs novērtējam katru kandidātu, novērtējot to ar mūsu tulkošanas modeli. Izmantojot to, ka labs dzimtes pārrakstījums būs arī precīzs avota teikuma tulkojums, mēs spējam nodrošināt augstu galarezultāta precizitāti.
Pārvaldītu tiešsaistes galapunktu izmantošana Azure mašīnmācīšanās sistēmā
Dzimumu alternatīvā funkcija pakalpojumā Bing ir izvietota vietnē pārvaldīti tiešsaistes galapunkti programmā Azure Machine Learning. Pārvaldāmie tiešsaistes galapunkti nodrošina vienotu saskarni, lai izsauktu un pārvaldītu modeļu izvietošanu Microsoft pārvaldītajos skaitļošanas procesos. Tie ļauj izmantot mērogojamu un uzticamu galapunktu priekšrocības, neuztraucoties par infrastruktūras pārvaldību. Šāda inferences vide ļauj arī apstrādāt lielu skaitu pieprasījumu ar mazu latentumu. Mūsu spēja izveidot un izvietot dzimumu debias pakalpojumu ar jaunākajiem ietvariem un tehnoloģijām ir ievērojami uzlabojusies, izmantojot pārvaldītās inferences funkcijas Azure Machine Learning. Izmantojot šīs funkcijas, mums ir izdevies saglabāt zemas COGS (pārdoto preču izmaksas) un nodrošināt vienkāršu atbilstību drošības un privātuma prasībām.
Kā jūs varat sniegt savu ieguldījumu?
Lai veicinātu dzimumu neobjektivitātes mazināšanu MT, mēs publicējam testa korpusu, kas satur dzimtes ziņā viennozīmīgus tulkojumu piemērus no angļu valodas uz spāņu, franču un itāļu valodu. Katram angļu valodas avota teikumam ir pievienoti vairāki tulkojumi, kas aptver visas iespējamās dzimtes variācijas.
Mūsu testu kopa ir veidota tā, lai tā būtu sarežģīta, morfoloģiski bagāta un lingvistiski daudzveidīga. Šis korpuss ir bijis noderīgs mūsu izstrādes procesā. Tas tika izstrādāts ar bilingvālu lingvistu palīdzību, kuriem ir ievērojama tulkošanas pieredze. Mēs publicējam arī tehnisko dokumentu, kurā detalizēti aprakstīts testa korpuss, kā arī novērtēšanas metodoloģija un rīki.
GATE: dzimtes ziņā neviennozīmīgu tulkojumu piemēru komplekts - Paper
GATE: dzimtes ziņā viennozīmīgu tulkošanas piemēru komplekts - testa komplekts
Ceļš uz priekšu
Ar šo darbu mēs cenšamies uzlabot MT rezultātu kvalitāti neskaidru avota dzimtes vārdu gadījumos, kā arī veicināt labāku un iekļaujošāku dabiskās valodas apstrādes (NLP) rīku izstrādi kopumā. Sākotnējā versijā mēs koncentrējamies uz tulkošanu no angļu valodas uz spāņu, franču un itāļu valodu. Turpmāk mēs plānojam to paplašināt, iekļaujot jaunus valodu pārus, kā arī aptvert papildu scenārijus un neobjektivitātes veidus.
Kredīti:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.