Перейти к основному контенту
Translator
Эта страница была автоматически переведена службой машинного перевода Microsoft Translator. Подробнее

Блог переводчика Майкрософт

Гендерные переводы Bing решают проблему предвзятости в переводе

Гендерная предвзятость
3D рендеринг гендерных символов.

Мы рады сообщить, что на сегодняшний день при переводе с английского на испанский, французский или итальянский языки доступны альтернативные переводы мужского и женского рода. Вы можете опробовать эту новую функцию в обоих Поиск Bing И Переводчик Bing Вертикалей.

За последние несколько лет область машинного перевода (МТ) была революционизирована появлением моделей трансформаторов, что привело к огромным улучшениям качества. Однако модели, оптимизированные для захвата статистических свойств данных, собранных из реального мира, непреднамеренно изучают или даже усиливают социальные предубеждения, обнаруженные в этих данных.

Наш последний выпуск является шагом к уменьшению одной из этих предубеждений, в частности гендерной предвзятости, которая распространена в системах MT. Переводчик Bing всегда производил один перевод для вводного предложения, даже когда переводы могли иметь другие гендерные вариации, включая женский и мужской варианты. В соответствии с Принципы ответственного ИИ корпорации Майкрософт, мы хотим убедиться, что мы предоставляем правильные альтернативные переводы и более инклюзивны для всех полов. В рамках этого путешествия нашим первым шагом является предоставление вариантов женского и мужского переводов.

Гендер выражается по-разному в разных языках. Например, в английском языке слово lawyer может относиться либо к мужчине, либо к женщине, но в испанском языке: абогада будет относиться к женщине-адвокату, в то время как abogado будет относиться к мужскому. При отсутствии информации о роде существительного, такого как «юрист» в исходном предложении, модели МТ могут прибегнуть к выбору произвольного рода для существительного на целевом языке. Часто эти произвольные гендерные назначения совпадают со стереотипами, увековечивая вредные социальные предубеждения (Stanovsky et al., 2019; Ciora et al., 2021) и приводит к переводам, которые не являются полностью точными.

В приведенном ниже примере вы заметили, что при переводе гендерно-нейтральных предложений с английского на испанский переведенный текст следует стереотипной гендерной роли, т.е. юрист переводится как мужчина.

Перевод с гендерной предвзятостью
Скриншот перевода английского текста «Давайте узнаем мнение нашего юриста по этому вопросу» на испанский язык с гендерной предвзятостью.

Поскольку в исходном предложении нет контекста, подразумевающего пол адвоката, создание перевода с предположением о том, что адвокат мужского или женского пола будет действительным. В настоящее время Bing Translator производит переводы как женского, так и мужского рода.

Перевод гендерно-неоднозначного английского текста на испанский язык
Скриншот перевода английского текста "Давайте узнаем мнение нашего юриста по этому вопросу." на испанский язык с гендерно-специфическими переводами.

Проектирование системы

Мы стремились разработать нашу систему в соответствии со следующими ключевыми критериями для предоставления гендерных альтернатив:

  1. Женский и мужской варианты должны иметь минимальные различия, за исключением тех, которые необходимы для передачи пола.
  2. Мы хотели охватить широкий спектр предложений, где возможны несколько гендерных альтернатив.
  3. Мы хотели убедиться, что переводы сохраняют смысл предложения первоисточника.

Выявление гендерной двусмысленности

Чтобы точно обнаружить гендерную двусмысленность в исходном тексте, мы используем модель coreference для анализа входных данных, содержащих одушевленные существительные. Например, если данный вводимый текст содержит гендерно-нейтральное профессиональное слово, мы хотим предоставить для него гендерные альтернативы только тогда, когда его пол не может быть определен другой информацией в предложении. Например: При переводе английского предложения «Адвокат встретила своего водителя в холле отеля» на французский язык мы можем определить, что адвокат - женщина, в то время как пол водителя неизвестен.

Перевод гендерно-неоднозначного английского текста на французский
Скриншот перевода английского текста "Адвокат встретила своего водителя в холле отеля." на французский язык.

Создание альтернативного перевода

Когда исходное предложение неоднозначно гендерно, мы изучаем результаты нашей системы перевода, чтобы решить, возможна ли альтернативная гендерная интерпретация. Если это так, мы приступаем к определению наилучшего способа пересмотра перевода. Мы начинаем с создания набора целевых переводов кандидатов путем переписывания оригинального перевода. Мы применяем лингвистические ограничения, основанные на зависимостных отношениях, чтобы обеспечить согласованность в предлагаемых альтернативах и обрезать ошибочных кандидатов.

Тем не менее, во многих случаях, даже после применения наших ограничений, мы остаемся с несколькими кандидатами на переписывание для гендерного альтернативного перевода. Чтобы определить лучший вариант, мы оцениваем каждого кандидата, оценивая его с помощью нашей модели перевода. Используя тот факт, что хороший гендерный рерайт также будет точным переводом исходного предложения, мы можем обеспечить высокую точность в нашем конечном результате.

Системное проектирование гендерного перегиба
Диаграмма, показывающая системный дизайн гендерного перегиба.

Использование управляемых сетевых конечных точек в Машинном обучении Azure

Гендерная альтернативная функция в Bing размещена на управляемые сетевые конечные точки в Машинном обучении Azure. Управляемые сетевые конечные точки предоставляют унифицированный интерфейс для вызова и управления развертываниями моделей на управляемых корпорацией Майкрософт вычислениях «под ключ». Они позволяют нам использовать преимущества масштабируемых и надежных конечных точек, не беспокоясь об управлении инфраструктурой. Эта среда вывода также позволяет обрабатывать большое количество запросов с низкой задержкой. Наши возможности по созданию и развертыванию службы гендерной дебиас с использованием новейших платформ и технологий были значительно улучшены благодаря использованию функций управляемого вывода в Машинном обучении Azure. Используя эти функции, мы смогли поддерживать низкий уровень COGS (Cost of Goods Sold) и обеспечить простое соответствие требованиям безопасности и конфиденциальности.

Как вы можете внести свой вклад?

Для содействия прогрессу в сокращении гендерных предрассудков в МТ мы выпускаем тестовый корпус, содержащий гендерно-неоднозначные примеры перевода с английского на испанский, французский и итальянский языки. Каждое английское исходное предложение сопровождается несколькими переводами, охватывающими каждую возможную гендерную вариацию.

Наш тестовый набор построен так, чтобы быть сложным, морфологически богатым и лингвистически разнообразным. Этот корпус сыграл важную роль в нашем процессе разработки. Он был разработан с помощью двуязычных лингвистов со значительным опытом перевода. Мы также выпускаем технический документ, в котором подробно обсуждается корпус тестов, а также методология и инструменты оценки.

GATE: Задача, поставленная перед примерами гендерно-неоднозначных переводов – Документ

GATE: Набор задач для примеров перевода с гендерной неоднозначностью – Тестовый набор

Путь вперед

Посредством этой работы мы стремимся улучшить качество выпуска МТ в случаях неоднозначного пола источника, а также способствовать разработке лучших и более инклюзивных инструментов обработки естественного языка (НЛП) в целом. Наш первый выпуск посвящен переводу с английского на испанский, французский и итальянский языки. В дальнейшем мы планируем перейти на новые языковые пары, а также охватить дополнительные сценарии и типы предубеждений.

Кредиты:

Ранджита Наик, Спенсер Раррик, Сундар Пудель, Варун Матхур, Джешвант Кумар Чандрала, Чаран Мохан, Ли Шварц, Стивен Нгуен, Амит Бхагват, Вишал Чоудхари.