Les traductions genrées de Bing s’attaquent aux préjugés dans la traduction
Nous sommes ravis d’annoncer qu’à partir d’aujourd’hui, des traductions alternatives masculines et féminines sont disponibles pour la traduction de l’anglais vers l’espagnol, le français ou l’italien. Vous pouvez essayer cette nouvelle fonctionnalité dans les deux Recherche Bing Et Traducteur Bing Verticales.
Au cours des dernières années, le domaine de la traduction automatique (TA) a été révolutionné par l’avènement des modèles de transformateurs, ce qui a entraîné d’énormes améliorations de la qualité. Cependant, les modèles optimisés pour capturer les propriétés statistiques des données recueillies dans le monde réel apprennent par inadvertance ou même amplifient les biais sociaux trouvés dans ces données.
Notre dernière publication est une étape vers la réduction de l’un de ces préjugés, en particulier les préjugés sexistes qui prévalent dans les systèmes de traduction automatique. Bing Translator a toujours produit une seule traduction pour une phrase d’entrée, même lorsque les traductions auraient pu avoir d’autres variations de genre, y compris des variantes féminines et masculines. Conformément à la Principes de Microsoft en matière d’IA responsable, nous voulons nous assurer que nous fournissons des traductions alternatives correctes et que nous sommes plus inclusifs pour tous les genres. Dans le cadre de ce voyage, notre première étape consiste à fournir des variantes de traduction féminines et masculines.
Le genre est exprimé différemment selon les langues. Par exemple, en anglais, le mot avocat pourrait désigner un homme ou une femme, mais en espagnol, Abogada ferait référence à une avocate, tandis que Abogado ferait référence à un homme. En l’absence d’informations sur le genre d’un nom comme « avocat » dans une phrase source, les modèles de traduction automatique peuvent recourir à la sélection d’un genre arbitraire pour le nom dans la langue cible. Souvent, ces assignations arbitraires de genre s’alignent sur les stéréotypes, perpétuant les préjugés sociétaux néfastes (Stanovsky et al., 2019; Ciora et al., 2021) et conduisant à des traductions qui ne sont pas tout à fait exactes.
Dans l’exemple ci-dessous, vous remarquez que lors de la traduction de phrases neutres de l’anglais vers l’espagnol, le texte traduit suit le rôle stéréotypé du genre, c’est-à-dire que l’avocat est traduit comme étant un homme.
Comme il n’y a pas de contexte dans la phrase source qui implique le sexe de l’avocat, produire une traduction avec l’hypothèse d’un avocat masculin ou féminin serait valide. Aujourd’hui, Bing Translator produit des traductions avec des formes féminines et masculines.
Conception du système
Notre objectif était de concevoir notre système de manière à répondre aux critères clés suivants pour fournir des alternatives sexospécifiques :
- Les variantes féminine et masculine devraient avoir des différences minimales, à l’exception de celles nécessaires pour transmettre le genre.
- Nous voulions couvrir un large éventail de peines où plusieurs alternatives sexospécifiques sont possibles.
- Nous voulions nous assurer que les traductions préservent le sens de la phrase source originale.
Détecter l’ambiguïté de genre
Afin de détecter avec précision l’ambiguïté de genre dans le texte source, nous utilisons un modèle de coréférence pour analyser les entrées contenant des noms animés. Par exemple, si un texte d’entrée donné contient un mot de profession neutre, nous ne voulons fournir des alternatives genrées que lorsque son genre ne peut pas être déterminé par d’autres informations dans la phrase. Par exemple : En traduisant une phrase anglaise « L’avocate a rencontré son chauffeur dans le hall de l’hôtel. » en français, nous pouvons déterminer que l’avocat est une femme, alors que le sexe du chauffeur est inconnu.
Génération d’une autre traduction
Lorsque la phrase source est ambiguëment genrée, nous examinons les résultats de notre système de traduction pour décider si une interprétation alternative du genre est possible. Si c’est le cas, nous procédons à la détermination de la meilleure façon de réviser la traduction. Nous commençons par construire un ensemble de traductions cibles candidates en réécrivant la traduction originale. Nous appliquons des contraintes linguistiques basées sur les relations de dépendance pour assurer la cohérence des alternatives proposées et élaguer les candidats erronés.
Cependant, dans de nombreux cas, même après avoir appliqué nos contraintes, nous nous retrouvons avec plusieurs réécritures de candidats pour la traduction alternative genrée. Pour déterminer la meilleure option, nous évaluons chaque candidat en le notant avec notre modèle de traduction. En tirant parti du fait qu’une bonne réécriture de genre sera également une traduction précise de la phrase source, nous sommes en mesure d’assurer une grande précision dans notre résultat final.
Tirer parti des points de terminaison en ligne gérés dans Azure Machine Learning
La fonctionnalité alternative genrée de Bing est hébergée sur Terminaux en ligne gérés dans Azure Machine Learning. Les points de terminaison en ligne gérés fournissent une interface unifiée pour appeler et gérer les déploiements de modèles sur le calcul géré par Microsoft de manière clé en main. Ils nous permettent de tirer parti de terminaux évolutifs et fiables sans nous soucier de la gestion de l’infrastructure. Cet environnement d’inférence permet également le traitement d’un grand nombre de demandes avec une faible latence. Notre capacité à créer et à déployer le service de biais sexiste avec les dernières infrastructures et technologies a été considérablement améliorée grâce à l’utilisation des fonctionnalités d’inférence managée dans Azure Machine Learning. En tirant parti de ces fonctionnalités, nous avons été en mesure de maintenir un faible COGS (coût des marchandises vendues) et d’assurer une conformité simple en matière de sécurité et de confidentialité.
Comment pouvez-vous contribuer?
Pour faciliter les progrès dans la réduction des préjugés sexistes dans la traduction automatique, nous publions un corpus test contenant des exemples de traduction ambiguë de l’anglais vers l’espagnol, le français et l’italien. Chaque phrase source anglaise est accompagnée de plusieurs traductions, couvrant chaque variation de genre possible.
Notre ensemble de tests est construit pour être stimulant, morphologiquement riche et linguistiquement diversifié. Ce corpus a joué un rôle déterminant dans notre processus de développement. Il a été développé avec l’aide de linguistes bilingues ayant une expérience significative de la traduction. Nous publions également un document technique qui traite en détail du corpus de test ainsi que de la méthodologie et des outils d’évaluation.
GATE: Un défi pour les exemples de traduction ambigus sur le plan du genre – Paper
GATE : un défi pour les exemples de traduction ambiguë sur le plan du genre – Ensemble de tests
Voie à suivre
Grâce à ce travail, nous visons à améliorer la qualité des résultats de la traduction automatique dans les cas de sexe source ambigu, ainsi qu’à faciliter le développement d’outils de traitement du langage naturel (NLP) meilleurs et plus inclusifs en général. Notre version initiale se concentre sur la traduction de l’anglais vers l’espagnol, le français et l’italien. À l’avenir, nous prévoyons d’étendre à de nouvelles paires de langues, ainsi que de couvrir d’autres scénarios et types de biais.
Crédits:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.