Ovu stranicu automatski prevodi prevođenje mašine za prevodioca Microsoft prevoditelja. Naučiti više

Microsoft blog za prevodjenje

Bingovi rodno orijentisani prijevodi rješavaju pristrasnost u prijevodu

Rodna de-pristrasnost
3D prikaz rodnih simbola.

Uzbuđeni smo što možemo objaviti da su od danas dostupni alternativni prijevodi za muški i ženski rod kada se prevodi sa engleskog na španski, francuski ili italijanski. Ovu novu funkciju možete isprobati u oba Bing pretraga I Bing prevodilac vertikale.

U posljednjih nekoliko godina, područje strojnog prevođenja (MT) je revolucionirano pojavom transformatorskih modela, što je dovelo do ogromnog poboljšanja kvaliteta. Međutim, modeli optimizirani za hvatanje statističkih svojstava podataka prikupljenih iz stvarnog svijeta nehotice uče ili čak pojačavaju društvene predrasude pronađene u tim podacima.

Naše najnovije izdanje je korak ka smanjenju jedne od ovih predrasuda, posebno rodne predrasude koja preovladava u MT sistemima. Bing Translator je uvijek proizvodio jedan prijevod za ulaznu rečenicu čak i kada su prijevodi mogli imati druge rodne varijacije, uključujući ženske i muške varijante. U skladu sa Microsoft odgovorna AI načela, želimo osigurati da pružamo ispravne alternativne prijevode i da budu inkluzivniji za sve spolove. Kao dio ovog putovanja naš prvi korak je da pružimo varijante prijevoda u ženskom i muškom rodu.

Rod se različito izražava na različitim jezicima. Na primjer, na engleskom se riječ advokat može odnositi na muško ili žensko lice, ali na španskom, abogada odnosio bi se na advokaticu, dok abogado odnosilo bi se na muško. U nedostatku informacija o rodu imenice kao što je 'advokat' u izvornoj rečenici, MT modeli mogu pribjeći odabiru proizvoljnog roda za imenicu na ciljnom jeziku. Često su ovi proizvoljni rodovi u skladu sa stereotipima, održavajući štetnu društvenu pristrasnost (Stanovsky et al., 2019; Ciora et al., 2021) i dovodeći do prijevoda koji nisu u potpunosti tačni.

U primjeru ispod, primjećujete da dok prevodite rodno neutralne rečenice sa engleskog na španski, prevedeni tekst slijedi stereotipnu rodnu ulogu, tj. advokat se prevodi kao muško.

Prevod sa rodnom pristrasnošću
Snimak ekrana prijevoda engleskog teksta “Hajde da dobijemo mišljenje našeg advokata o ovom pitanju.” na španski jezik koji ima rodnu pristrasnost.

Kako u izvornoj rečenici nema konteksta koji implicira spol advokata, izrada prijevoda uz pretpostavku da se radi o muškom ili ženskom advokatu bila bi valjana. Sada, Bing Translator proizvodi prevode sa ženskim i muškim oblicima.

Prijevod rodno dvosmislenog engleskog teksta na španski
Snimak ekrana prijevoda engleskog teksta “Hajde da dobijemo mišljenje našeg advokata o ovom pitanju.” na španski jezik sa rodno specifičnim prijevodima.

Dizajn sistema

Cilj nam je bio dizajnirati naš sistem tako da ispuni sljedeće ključne kriterije za pružanje rodno uvjetovanih alternativa:

  1. Ženske i muške varijante trebale bi imati minimalne razlike osim onih koje su potrebne za prenošenje spola.
  2. Željeli smo pokriti širok raspon rečenica u kojima su moguće višestruke rodne alternative.
  3. Željeli smo osigurati da prijevodi sačuvaju značenje izvorne rečenice.

Otkrivanje rodne dvosmislenosti

Kako bismo precizno otkrili rodnu dvosmislenost u izvornom tekstu, koristimo model koreferencije za analizu ulaznih podataka koji sadrže animirane imenice. Na primjer, ako dati ulazni tekst sadrži rodno neutralnu riječ o profesiji, želimo samo dati rodne alternative za to kada se njegov rod ne može odrediti drugim informacijama u rečenici. Na primjer: o prijevodu rečenice na engleski „Advokat je sreo svog vozača u holu hotela.” na francuski možemo utvrditi da je advokat ženskog pola, dok je pol vozača nepoznat.

Prijevod rodno dvosmislenog engleskog teksta na francuski
Snimak ekrana prijevoda engleskog teksta "Advokat je sreo svog vozača u holu hotela." na francuski jezik.

Generiranje alternativnog prijevoda

Kada je izvorna rečenica dvosmisleno rodno označena, ispitujemo rezultate našeg sistema prevođenja kako bismo odlučili da li je alternativno tumačenje roda moguće. Ako je tako, nastavljamo s određivanjem najboljeg načina za reviziju prijevoda. Počinjemo konstruiranjem skupa ciljnih prijevoda kandidata prepisivanjem originalnog prijevoda. Primjenjujemo jezička ograničenja zasnovana na odnosima zavisnosti kako bismo osigurali konzistentnost u predloženim alternativama i smanjili pogrešne kandidate.

Međutim, u mnogim slučajevima, čak i nakon primjene naših ograničenja, ostaje nam višestruko prepisivanje kandidata za rodno određen alternativni prijevod. Da bismo odredili najbolju opciju, svakog kandidata ocjenjujemo bodovanjem pomoću našeg modela prevođenja. Koristeći činjenicu da će dobro prepisivanje roda biti i tačan prijevod izvorne rečenice, u mogućnosti smo osigurati visoku preciznost u našem konačnom rezultatu.

Dizajn sistema reinfleksije roda
Dijagram koji prikazuje sistemski dizajn re-infleksije roda.

Iskorištavanje upravljanih mrežnih krajnjih tačaka u Azure Machine Learning

Rodno određena alternativna karakteristika u Bingu se hostuje na upravljane online krajnje tačke u Azure mašinskom učenju. Upravljane mrežne krajnje tačke pružaju objedinjeno sučelje za pozivanje i upravljanje implementacijama modela na računarima kojim upravlja Microsoft na način „ključ u ruke“. Oni nam omogućavaju da iskoristimo prednosti skalabilnih i pouzdanih krajnjih tačaka bez brige o upravljanju infrastrukturom. Ovo okruženje zaključivanja takođe omogućava obradu velikog broja zahteva sa malim kašnjenjem. Naša sposobnost da kreiramo i implementiramo uslugu gender debias s najnovijim okvirima i tehnologijama uvelike je poboljšana korištenjem funkcija upravljanog zaključivanja u Azure Machine Learning. Koristeći ove funkcije, uspjeli smo održati niske COGS (Cost of Goods Sold) i osigurati jednostavnu sigurnost i usklađenost s privatnošću.

Kako možete doprinijeti?

Kako bismo olakšali napredak u smanjenju rodne predrasude u MT-u, objavljujemo testni korpus koji sadrži rodno dvosmislene primjere prijevoda sa engleskog na španski, francuski i talijanski. Svaka engleska izvorna rečenica popraćena je s više prijevoda, koji pokrivaju svaku moguću rodnu varijaciju.

Naš testni set je konstruiran da bude izazovan, morfološki bogat i jezički raznolik. Ovaj korpus je bio ključan u našem procesu razvoja. Razvijen je uz pomoć dvojezičnih lingvista sa značajnim prevodilačkim iskustvom. Objavljujemo i tehnički dokument koji detaljno govori o testnom korpusu i metodologiji i alatima za evaluaciju.

GATE: Skup izazova za rodno dvosmislene primjere prijevoda – papir

GATE: Skup izazova za rodno dvosmislene primjere prijevoda – Test set

Put naprijed

Kroz ovaj rad imamo za cilj da poboljšamo kvalitet MT izlaza u slučajevima dvosmislenog roda izvora, kao i da olakšamo razvoj boljih i inkluzivnijih alata za obradu prirodnog jezika (NLP) uopšte. Naše prvo izdanje fokusira se na prevođenje sa engleskog na španski, francuski i italijanski. U budućnosti, planiramo proširiti se na nove jezičke parove, kao i pokriti dodatne scenarije i vrste predrasuda.

Zasluge:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.