Гендерні переклади Bing борються з упередженнями в перекладі
Ми раді повідомити, що відсьогодні для перекладу з англійської на іспанську, французьку та італійську мови доступні альтернативні варіанти перекладу в чоловічому та жіночому роді. Ви можете спробувати цю нову функцію в обох випадках Пошук Бінг І Перекладач Bing вертикалі.
За останні кілька років у галузі машинного перекладу (МП) відбулася революція завдяки появі моделей-трансформерів, що призвело до значного покращення якості. Однак моделі, оптимізовані для врахування статистичних властивостей даних, зібраних у реальному світі, ненавмисно засвоюють або навіть посилюють соціальні упередження, що містяться в цих даних.
Наша остання версія - це крок до зменшення одного з таких упереджень, а саме гендерного упередження, яке поширене в системах машинного перекладу. Bing Translator завжди створював єдиний переклад для вхідного речення, навіть якщо переклад міг мати інші гендерні варіації, зокрема жіночий і чоловічий варіанти. Відповідно до Принципи відповідального ШІ від Microsoftми хочемо переконатися, що надаємо коректні альтернативні переклади і є більш інклюзивними для всіх статей. У рамках цього шляху нашим першим кроком є надання варіантів перекладу у жіночому та чоловічому роді.
У різних мовах гендер виражається по-різному. Наприклад, в англійській мові слово "юрист" може стосуватися як чоловіка, так і жінки, а в іспанській - навпаки, abogada звернулися б до адвоката-жінки, тоді як Абогадо. означатиме особу чоловічої статі. За відсутності інформації про рід іменника, наприклад, "юрист" у вихідному реченні, моделі МП можуть вдаватися до вибору довільного роду для іменника в мові перекладу. Часто ці довільні гендерні призначення відповідають стереотипам, увічнюючи шкідливі суспільні упередження (Stanovsky та ін., 2019; Ciora та ін., 2021) і призводячи до того, що переклад не є повністю точним.
У наведеному нижче прикладі можна помітити, що при перекладі гендерно-нейтральних речень з англійської мови на іспанську текст перекладу відповідає стереотипній гендерній ролі, тобто адвокат перекладається як чоловік.
Оскільки у вихідному реченні немає контексту, який би вказував на стать юриста, переклад з припущенням, що йдеться про юриста-чоловіка або юриста-жінку, був би правильним в обох випадках. Тепер Bing Translator видає переклад як з жіночим, так і з чоловічим родом.
Проектування системи
Ми прагнули розробити нашу систему таким чином, щоб вона відповідала наступним ключовим критеріям надання ґендерно орієнтованих альтернатив:
- Жіночий і чоловічий варіанти повинні мати мінімальні відмінності, за винятком тих, що необхідні для передачі статі.
- Ми хотіли охопити широкий спектр речень, де можливі кілька гендерних альтернатив.
- Ми хотіли переконатися, що в перекладі збережено зміст речення оригіналу.
Виявлення гендерної неоднозначності
Щоб точно виявити гендерну неоднозначність у вихідному тексті, ми використовуємо модель кореферентності для аналізу вхідних даних, що містять одухотворені іменники. Наприклад, якщо у вхідному тексті міститься гендерно нейтральна назва професії, ми надаємо гендерні альтернативи лише тоді, коли її стать не можна визначити за іншою інформацією в реченні. Наприклад: Перекладаючи англійське речення "The lawyer met her driver at the hotel lobby." на французьку мову, ми можемо визначити, що адвокат - жінка, тоді як стать водія невідома.
Створення альтернативного перекладу
Якщо вихідне речення неоднозначно гендерно марковане, ми аналізуємо результати роботи нашої системи перекладу, щоб вирішити, чи можлива альтернативна гендерна інтерпретація. Якщо так, то ми переходимо до визначення найкращого способу переробки перекладу. Ми починаємо з того, що створюємо низку перекладів-кандидатів шляхом переписування оригіналу. Ми застосовуємо лінгвістичні обмеження, засновані на відносинах залежності, щоб забезпечити узгодженість запропонованих альтернатив і відсіяти помилкові кандидати.
Однак у багатьох випадках, навіть після застосування наших обмежень, ми залишаємося з кількома варіантами перекладу для гендерно-орієнтованого альтернативного перекладу. Щоб визначити найкращий варіант, ми оцінюємо кожен з них за допомогою нашої моделі перекладу. Використовуючи той факт, що хороший гендерний рерайт також буде точним перекладом вихідного речення, ми можемо забезпечити високу точність нашого кінцевого результату.
Використання керованих кінцевих точок в Інтернеті в машинному навчанні Azure
Гендерна альтернативна функція в Bing розміщена на керовані кінцеві точки в Інтернеті в Azure Machine Learning. Керовані онлайн кінцеві точки надають уніфікований інтерфейс для виклику та керування розгортанням моделей на керованих Microsoft обчисленнях "під ключ". Вони дають нам змогу скористатися перевагами масштабованих і надійних кінцевих точок, не турбуючись про управління інфраструктурою. Це середовище виведення також дозволяє обробляти велику кількість запитів з низькою затримкою. Наша здатність створювати та розгортати сервіс гендерних упереджень за допомогою новітніх фреймворків і технологій значно покращилася завдяки використанню функцій керованого виводу в Azure Machine Learning. Використовуючи ці функції, ми змогли підтримувати низький рівень собівартості проданих товарів (COGS) і забезпечити дотримання вимог безпеки та конфіденційності.
Як ви можете зробити свій внесок?
Щоб сприяти прогресу у зменшенні гендерних упереджень у МП, ми випускаємо тестовий корпус, що містить приклади гендерно-однозначного перекладу з англійської на іспанську, французьку та італійську мови. Кожне речення англійського оригіналу супроводжується кількома перекладами, що охоплюють усі можливі гендерні варіації.
Наша тестова база побудована таким чином, щоб бути складною, морфологічно багатою та лінгвістично різноманітною. Цей корпус відіграв важливу роль у нашому процесі розробки. Він був розроблений за допомогою двомовних лінгвістів зі значним перекладацьким досвідом. Ми також випускаємо технічний документ, який детально описує тестовий корпус, методологію та інструменти оцінювання.
GATE: Виклик для гендерно-неоднозначних прикладів перекладу - документ
GATE: набір завдань для гендерно-неоднозначних прикладів перекладу - тестовий набір
Шлях вперед
За допомогою цієї роботи ми прагнемо покращити якість перекладу у випадках неоднозначної статі джерела, а також сприяти розробці досконаліших та інклюзивніших інструментів обробки природної мови (NLP) загалом. Наш початковий реліз зосереджений на перекладі з англійської на іспанську, французьку та італійську мови. У майбутньому ми плануємо розширити його на нові мовні пари, а також охопити додаткові сценарії та типи упереджень.
Титри:
Ранджита Найк, Спенсер Раррік, Сундар Пудель, Варун Матхур, Джешвант Кумар Чандрала, Чаран Мохан, Лі Шварц, Стівен Нгуєн, Аміт Бхагват, Вішал Чоудхарі.