Traducerile de gen ale lui Bing abordează prejudecățile în traducere
Suntem încântați să anunțăm că, începând de astăzi, sunt disponibile traduceri alternative la masculin și feminin pentru traducerea din engleză în spaniolă, franceză sau italiană. Puteți încerca această nouă funcție atât în Căutare Bing Şi Bing traducător verticale.
În ultimii ani, domeniul traducerii automate (MT) a fost revoluționat de apariția modelelor de transformare, ceea ce a dus la îmbunătățiri extraordinare ale calității. Cu toate acestea, modelele optimizate pentru a capta proprietățile statistice ale datelor colectate din lumea reală învață involuntar sau chiar amplifică prejudecățile sociale găsite în acele date.
Cea mai recentă versiune a noastră este un pas spre reducerea uneia dintre aceste prejudecăți, în special a prejudecăților de gen, care sunt predominante în sistemele MT. Bing Translator a produs întotdeauna o singură traducere pentru o propoziție de intrare, chiar și atunci când traducerile ar fi putut avea și alte variante de gen, inclusiv variante feminine și masculine. În conformitate cu Principiile de inteligență artificială responsabilă Microsoft, dorim să ne asigurăm că oferim traduceri alternative corecte și că suntem mai incluzivi pentru toate genurile. Ca parte a acestei călătorii, primul nostru pas este de a oferi variante de traducere feminine și masculine.
Sexul este exprimat în mod diferit de la o limbă la alta. De exemplu, în limba engleză, cuvântul avocat se poate referi la o persoană de sex masculin sau feminin, dar în spaniolă, abogada s-ar referi la o femeie avocat, în timp ce abogado s-ar referi la un bărbat. În absența informațiilor despre genul unui substantiv precum "avocat" într-o propoziție sursă, modelele de MT pot recurge la selectarea unui gen arbitrar pentru substantivul din limba țintă. Adesea, aceste atribuiri arbitrare de gen se aliniază cu stereotipurile, perpetuând prejudecăți dăunătoare pentru societate (Stanovsky et al., 2019; Ciora et al., 2021) și conducând la traduceri care nu sunt pe deplin exacte.
În exemplul de mai jos, observați că, în timpul traducerii propozițiilor neutre din engleză în spaniolă, textul tradus urmează rolul stereotip al genului, adică avocatul este tradus ca fiind de sex masculin.
Deoarece nu există niciun context în propoziția sursă care să implice sexul avocatului, producerea unei traduceri cu ipoteza unui avocat de sex masculin sau feminin ar fi valabilă. Acum, Bing Translator produce traduceri cu forme atât feminine, cât și masculine.
Proiectarea sistemului
Am urmărit să ne concepem sistemul astfel încât să îndeplinească următoarele criterii cheie pentru a oferi alternative de gen:
- Variantele feminine și masculine ar trebui să aibă diferențe minime, cu excepția celor necesare pentru a exprima genul.
- Am dorit să acoperim o gamă largă de propoziții în care sunt posibile mai multe alternative de gen.
- Am vrut să ne asigurăm că traducerile păstrează sensul propoziției sursă originale.
Detectarea ambiguității de gen
Pentru a detecta cu precizie ambiguitatea de gen în textul sursă, utilizăm un model de coreferință pentru a analiza intrările care conțin substantive animate. De exemplu, dacă un text de intrare dat conține un cuvânt de profesie neutru din punct de vedere al genului, dorim să oferim alternative de gen pentru acesta doar atunci când genul său nu poate fi determinat de alte informații din propoziție. De exemplu: La traducerea în franceză a propoziției engleze "Avocata s-a întâlnit cu șoferul ei în holul hotelului.", putem determina că avocata este de sex feminin, în timp ce sexul șoferului este necunoscut.
Generarea de traduceri alternative
Atunci când propoziția sursă este ambiguă din punct de vedere al genului, examinăm rezultatul sistemului nostru de traducere pentru a decide dacă este posibilă o interpretare alternativă a genului. În caz afirmativ, procedăm la determinarea celei mai bune modalități de revizuire a traducerii. Începem prin a construi un set de traduceri țintă candidate prin rescrierea traducerii originale. Aplicăm constrângeri lingvistice bazate pe relații de dependență pentru a asigura coerența alternativelor propuse și eliminăm candidaturile eronate.
Cu toate acestea, în multe cazuri, chiar și după aplicarea constrângerilor noastre, rămânem cu mai multe rescrieri candidate pentru traducerea alternativă de gen. Pentru a determina cea mai bună opțiune, evaluăm fiecare candidat prin evaluarea acestuia cu ajutorul modelului nostru de traducere. Profitând de faptul că o rescriere bună a genului va fi, de asemenea, o traducere exactă a propoziției sursă, putem asigura o precizie ridicată în rezultatul final.
Folosirea punctelor finale online gestionate în Azure Machine Learning
Funcția alternativă de gen din Bing este găzduită pe puncte finale online gestionate în Azure Machine Learning. Punctele finale online gestionate oferă o interfață unificată pentru a invoca și gestiona implementările de modele pe computerele gestionate de Microsoft într-o manieră la cheie. Acestea ne permit să profităm de puncte finale scalabile și fiabile fără a fi preocupați de gestionarea infrastructurii. Acest mediu de inferență permite, de asemenea, procesarea unui număr mare de cereri cu o latență redusă. Capacitatea noastră de a crea și de a implementa serviciul debias de gen cu cele mai recente cadre și tehnologii a fost mult îmbunătățită prin utilizarea funcțiilor de inferență gestionate în Azure Machine Learning. Prin valorificarea acestor caracteristici, am reușit să menținem un COGS (Cost of Goods Sold) scăzut și să asigurăm conformitatea directă cu securitatea și confidențialitatea.
Cum puteți contribui?
Pentru a facilita progresul în ceea ce privește reducerea prejudecăților de gen în MT, lansăm un corpus de testare care conține exemple de traduceri ambigue din engleză în spaniolă, franceză și italiană. Fiecare propoziție sursă în limba engleză este însoțită de mai multe traduceri, care acoperă fiecare variație posibilă de gen.
Setul nostru de teste este construit astfel încât să fie provocator, bogat din punct de vedere morfologic și divers din punct de vedere lingvistic. Acest corpus a fost esențial în procesul nostru de dezvoltare. Acesta a fost dezvoltat cu ajutorul unui lingvist bilingv cu o experiență semnificativă în domeniul traducerii. De asemenea, publicăm o lucrare tehnică care discută în detaliu corpul de testare, precum și metodologia și instrumentele de evaluare.
GATE: O provocare pentru exemple de traducere ambiguă din punct de vedere al genului - hârtie
GATE: Un set de provocări pentru exemple de traducere ambiguă în funcție de gen - Set de teste
Calea de urmat
Prin această lucrare, ne propunem să îmbunătățim calitatea traducerii automate în cazurile de genuri sursă ambigue, precum și să facilităm dezvoltarea unor instrumente de procesare a limbajului natural (NLP) mai bune și mai cuprinzătoare în general. Versiunea noastră inițială se concentrează pe traducerea din engleză în spaniolă, franceză și italiană. În continuare, intenționăm să extindem la noi perechi de limbi, precum și să acoperim alte scenarii și tipuri de distorsiuni.
Credite:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.