Bỏ qua và nội dung chính
Translator
Trang này đã được tự động dịch của Microsoft Translator Dịch vụ máy dịch. Tìm hiểu thêm

Blog của Microsoft Translator

Các bản dịch theo giới tính của Bing giải quyết sự thiên vị trong dịch thuật

Giảm thành kiến giới tính
Kết xuất 3D các biểu tượng giới tính.

Chúng tôi vui mừng thông báo rằng, kể từ hôm nay, các bản dịch thay thế nam tính và nữ tính có sẵn khi dịch từ tiếng Anh sang tiếng Tây Ban Nha, tiếng Pháp hoặc tiếng Ý. Bạn có thể dùng thử tính năng mới này trong cả hai Tìm kiếm trên BingBing Translator Dọc.

Trong vài năm qua, lĩnh vực Dịch máy (MT) đã được cách mạng hóa bởi sự ra đời của các mô hình máy biến áp, dẫn đến những cải tiến to lớn về chất lượng. Tuy nhiên, các mô hình được tối ưu hóa để nắm bắt các thuộc tính thống kê của dữ liệu được thu thập từ thế giới thực vô tình tìm hiểu hoặc thậm chí khuếch đại các thành kiến xã hội được tìm thấy trong dữ liệu đó.

Bản phát hành mới nhất của chúng tôi là một bước tiến tới việc giảm một trong những thành kiến này, đặc biệt là định kiến giới tính phổ biến trong các hệ thống MT. Bing Translator luôn tạo ra một bản dịch duy nhất cho một câu đầu vào ngay cả khi các bản dịch có thể có các biến thể giới tính khác bao gồm các biến thể nữ tính và nam tính. Phù hợp với Nguyên tắc AI có trách nhiệm của Microsoft, chúng tôi muốn đảm bảo rằng chúng tôi cung cấp các bản dịch thay thế chính xác và hòa nhập hơn cho tất cả các giới tính. Là một phần của cuộc hành trình này, bước đầu tiên của chúng tôi là cung cấp các biến thể dịch thuật nữ tính và nam tính.

Giới tính được thể hiện khác nhau trên các ngôn ngữ khác nhau. Ví dụ, trong tiếng Anh, từ luật sư có thể đề cập đến một cá nhân nam hoặc nữ, nhưng trong tiếng Tây Ban Nha, Abogada sẽ đề cập đến một nữ luật sư, trong khi Abogado sẽ đề cập đến một người đàn ông. Trong trường hợp không có thông tin về giới tính của một danh từ như 'luật sư' trong câu nguồn, các người mẫu MT có thể dùng đến việc chọn giới tính tùy ý cho danh từ bằng ngôn ngữ đích. Thông thường, những phân công giới tính tùy tiện này phù hợp với khuôn mẫu, duy trì thành kiến xã hội có hại (Stanovsky và cộng sự, 2019; Ciora và cộng sự, 2021) và dẫn đến các bản dịch không hoàn toàn chính xác.

Trong ví dụ dưới đây, bạn nhận thấy rằng trong khi dịch các câu trung lập về giới tính từ tiếng Anh sang tiếng Tây Ban Nha, văn bản được dịch tuân theo vai trò giới tính khuôn mẫu, tức là, luật sư được dịch là nam.

Dịch thuật với sự thiên vị về giới tính
Ảnh chụp màn hình bản dịch văn bản tiếng Anh "Hãy lấy ý kiến luật sư của chúng tôi về vấn đề này." sang tiếng Tây Ban Nha có thành kiến giới tính.

Vì không có ngữ cảnh trong câu nguồn ngụ ý giới tính của luật sư, nên việc tạo ra một bản dịch với giả định là luật sư nam hoặc nữ đều có giá trị. Giờ đây, Bing Translator sản xuất các bản dịch với cả hình thức nữ tính và nam tính.

Dịch văn bản tiếng Anh mơ hồ về giới tính sang tiếng Tây Ban Nha
Ảnh chụp màn hình bản dịch văn bản tiếng Anh "Hãy lấy ý kiến luật sư của chúng tôi về vấn đề này." sang tiếng Tây Ban Nha có bản dịch cụ thể về giới tính.

Thiết kế hệ thống

Chúng tôi mong muốn thiết kế hệ thống của mình để đáp ứng các tiêu chí chính sau đây để cung cấp các lựa chọn thay thế theo giới tính:

  1. Các biến thể nữ tính và nam tính nên có sự khác biệt tối thiểu ngoại trừ những biến thể cần thiết để truyền đạt giới tính.
  2. Chúng tôi muốn đề cập đến một loạt các câu có thể có nhiều lựa chọn thay thế theo giới tính.
  3. Chúng tôi muốn đảm bảo rằng các bản dịch bảo tồn ý nghĩa của câu nguồn gốc.

Phát hiện sự mơ hồ về giới tính

Để phát hiện chính xác sự mơ hồ về giới tính trong văn bản nguồn, chúng tôi sử dụng mô hình coreference để phân tích các đầu vào có chứa danh từ động. Ví dụ: nếu một văn bản đầu vào nhất định có chứa một từ nghề nghiệp trung lập về giới tính, chúng tôi chỉ muốn cung cấp các lựa chọn thay thế theo giới tính cho nó khi giới tính của nó không thể được xác định bởi các thông tin khác trong câu. Ví dụ: Khi dịch một câu tiếng Anh "Luật sư đã gặp tài xế của cô ấy tại sảnh khách sạn." sang tiếng Pháp, chúng ta có thể xác định rằng luật sư là nữ, trong khi giới tính của người lái xe là không rõ.

Dịch văn bản tiếng Anh mơ hồ về giới tính sang tiếng Pháp
Ảnh chụp màn hình bản dịch văn bản tiếng Anh "Luật sư đã gặp tài xế của cô ấy tại sảnh khách sạn." sang tiếng Pháp.

Tạo bản dịch thay thế

Khi câu nguồn bị giới tính một cách mơ hồ, chúng tôi sẽ kiểm tra kết quả đầu ra của hệ thống dịch thuật để quyết định xem có thể giải thích giới tính thay thế hay không. Nếu vậy, chúng tôi tiến hành xác định cách tốt nhất để sửa đổi bản dịch. Chúng tôi bắt đầu bằng cách xây dựng một tập hợp các bản dịch mục tiêu của ứng cử viên bằng cách viết lại bản dịch gốc. Chúng tôi áp dụng các ràng buộc ngôn ngữ dựa trên các mối quan hệ phụ thuộc để đảm bảo tính nhất quán trong các lựa chọn thay thế được đề xuất và cắt tỉa các ứng cử viên sai lầm.

Tuy nhiên, trong nhiều trường hợp, ngay cả sau khi áp dụng các ràng buộc của chúng tôi, chúng tôi vẫn còn nhiều ứng cử viên viết lại cho bản dịch thay thế theo giới tính. Để xác định lựa chọn tốt nhất, chúng tôi đánh giá từng ứng viên bằng cách chấm điểm nó với mô hình dịch thuật của chúng tôi. Bằng cách tận dụng thực tế là viết lại giới tính tốt cũng sẽ là bản dịch chính xác của câu nguồn, chúng tôi có thể đảm bảo độ chính xác cao trong kết quả cuối cùng của mình.

Thiết kế hệ thống tái định hướng giới tính
Một sơ đồ cho thấy thiết kế hệ thống của sự thay đổi giới tính.

Tận dụng các điểm cuối trực tuyến được quản lý trong Azure Machine Learning

Tính năng thay thế theo giới tính trong Bing được lưu trữ trên Điểm cuối trực tuyến được quản lý trong Azure Machine Learning. Các điểm cuối trực tuyến được quản lý cung cấp một giao diện hợp nhất để gọi và quản lý việc triển khai mô hình trên điện toán do Microsoft quản lý theo cách chìa khóa trao tay. Chúng cho phép chúng tôi tận dụng các điểm cuối có thể mở rộng và đáng tin cậy mà không cần quan tâm đến việc quản lý cơ sở hạ tầng. Môi trường suy luận này cũng cho phép xử lý số lượng lớn yêu cầu với độ trễ thấp. Khả năng của chúng tôi trong việc tạo và triển khai dịch vụ biến dạng giới với các khuôn khổ và công nghệ mới nhất đã được cải thiện đáng kể thông qua việc sử dụng các tính năng suy luận được quản lý trong Azure Machine Learning. Bằng cách tận dụng các tính năng này, chúng tôi đã có thể duy trì giá vốn hàng bán (Giá vốn hàng bán) thấp và đảm bảo tuân thủ bảo mật và quyền riêng tư đơn giản.

Làm thế nào bạn có thể đóng góp?

Để tạo điều kiện thuận lợi cho sự tiến bộ trong việc giảm định kiến giới trong MT, chúng tôi sẽ phát hành một kho tài liệu thử nghiệm chứa các ví dụ dịch thuật mơ hồ về giới tính từ tiếng Anh sang tiếng Tây Ban Nha, tiếng Pháp và tiếng Ý. Mỗi câu nguồn tiếng Anh được kèm theo nhiều bản dịch, bao gồm từng biến thể giới tính có thể có.

Bộ thử nghiệm của chúng tôi được xây dựng đầy thử thách, phong phú về hình thái và đa dạng về ngôn ngữ. Kho ngữ liệu này đã là công cụ trong quá trình phát triển của chúng tôi. Nó được phát triển với sự giúp đỡ của một nhà ngôn ngữ học song ngữ với kinh nghiệm dịch thuật đáng kể. Chúng tôi cũng đang phát hành một tài liệu kỹ thuật thảo luận chi tiết về kho tài liệu thử nghiệm cũng như phương pháp và công cụ để đánh giá.

GATE: Một thách thức được đặt ra cho các ví dụ về bản dịch mơ hồ về giới tính - Giấy

GATE: Một thách thức được đặt ra cho các ví dụ dịch thuật mơ hồ về giới tính - Bộ thử nghiệm

Con đường phía trước

Thông qua công việc này, chúng tôi mong muốn cải thiện chất lượng đầu ra MT trong các trường hợp giới tính nguồn không rõ ràng, cũng như tạo điều kiện phát triển các công cụ xử lý ngôn ngữ tự nhiên (NLP) tốt hơn và toàn diện hơn nói chung. Bản phát hành đầu tiên của chúng tôi tập trung vào việc dịch từ tiếng Anh sang tiếng Tây Ban Nha, tiếng Pháp và tiếng Ý. Trong tương lai, chúng tôi có kế hoạch mở rộng sang các cặp ngôn ngữ mới, cũng như bao gồm các tình huống và loại thành kiến bổ sung.

Tín dụng:

Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyễn, Amit Bhagwat, Vishal Chowdhary.