การแปลเพศของ Bing จัดการกับอคติในการแปล
เรารู้สึกตื่นเต้นที่จะประกาศว่า ณ วันนี้มีการแปลทางเลือกสําหรับผู้ชายและผู้หญิงเมื่อแปลจากภาษาอังกฤษเป็นภาษาสเปนฝรั่งเศสหรืออิตาลี คุณสามารถลองใช้คุณสมบัติใหม่นี้ได้ในทั้งสองอย่าง การค้นหา Bing และ นักแปล Bing แนวตั้ง
ในช่วงไม่กี่ปีที่ผ่านมาสาขาการแปลด้วยเครื่อง (MT) ได้รับการปฏิวัติโดยการถือกําเนิดของรุ่นหม้อแปลงซึ่งนําไปสู่การปรับปรุงคุณภาพอย่างมาก อย่างไรก็ตามแบบจําลองที่ปรับให้เหมาะสมเพื่อจับภาพคุณสมบัติทางสถิติของข้อมูลที่รวบรวมจากโลกแห่งความเป็นจริงโดยไม่ตั้งใจเรียนรู้หรือแม้แต่ขยายอคติทางสังคมที่พบในข้อมูลนั้น
รุ่นล่าสุดของเราเป็นขั้นตอนในการลดหนึ่งในอคติเหล่านี้โดยเฉพาะอคติทางเพศที่แพร่หลายในระบบ MT Bing Translator ได้ผลิตคําแปลเดียวสําหรับประโยคอินพุตเสมอแม้ว่าการแปลอาจมีรูปแบบเพศอื่น ๆ รวมถึงตัวแปรของผู้หญิงและผู้ชาย ตาม หลักการ AI ที่รับผิดชอบของ Microsoftเราต้องการให้แน่ใจว่าเราให้บริการแปลทางเลือกที่ถูกต้องและครอบคลุมทุกเพศมากขึ้น ในฐานะที่เป็นส่วนหนึ่งของการเดินทางนี้ขั้นตอนแรกของเราคือการจัดหารูปแบบการแปลที่เป็นผู้หญิงและผู้ชาย
เพศแสดงออกแตกต่างกันในแต่ละภาษา ตัวอย่างเช่นในภาษาอังกฤษคําว่าทนายความอาจหมายถึงบุคคลชายหรือหญิง แต่ในภาษาสเปน อาโบกาดา จะหมายถึงทนายความหญิงในขณะที่ อาโบกาโด จะหมายถึงผู้ชายคนหนึ่ง ในกรณีที่ไม่มีข้อมูลเกี่ยวกับเพศของคํานามเช่น 'ทนายความ' ในประโยคแหล่งที่มาโมเดล MT อาจใช้วิธีเลือกเพศโดยพลการสําหรับคํานามในภาษาเป้าหมาย บ่อยครั้งที่การกําหนดเพศโดยพลการเหล่านี้สอดคล้องกับแบบแผนทําให้เกิดอคติทางสังคมที่เป็นอันตราย (Stanovsky et al., 2019; Stanovsky et al., 2019) Ciora et al., 2021) และนําไปสู่การแปลที่ไม่ถูกต้องอย่างสมบูรณ์
ในตัวอย่างด้านล่างคุณสังเกตเห็นว่าในขณะที่แปลประโยคที่เป็นกลางทางเพศจากภาษาอังกฤษเป็นภาษาสเปนข้อความที่แปลแล้วจะเป็นไปตามบทบาททางเพศแบบเหมารวมเช่นทนายความแปลว่าเป็นผู้ชาย
เนื่องจากไม่มีบริบทในประโยคต้นทางที่แสดงถึงเพศของทนายความการผลิตคําแปลด้วยข้อสันนิษฐานของทนายความชายหรือหญิงจะถูกต้อง ตอนนี้ Bing Translator ผลิตงานแปลที่มีทั้งรูปแบบผู้หญิงและผู้ชาย
การออกแบบระบบ
เรามุ่งมั่นที่จะออกแบบระบบของเราให้เป็นไปตามเกณฑ์สําคัญต่อไปนี้สําหรับการจัดหาทางเลือกทางเพศ:
- ตัวแปรของผู้หญิงและผู้ชายควรมีความแตกต่างน้อยที่สุดยกเว้นสิ่งที่จําเป็นในการถ่ายทอดเพศ
- เราต้องการครอบคลุมประโยคที่หลากหลายซึ่งเป็นไปได้หลายทางเลือกทางเพศ
- เราต้องการให้แน่ใจว่าการแปลยังคงรักษาความหมายของประโยคต้นฉบับ
การตรวจจับความคลุมเครือทางเพศ
เพื่อตรวจจับความคลุมเครือทางเพศในข้อความต้นฉบับได้อย่างแม่นยําเราใช้แบบจําลอง coreference เพื่อวิเคราะห์อินพุตที่มีคํานามเคลื่อนไหว ตัวอย่างเช่นหากข้อความป้อนข้อมูลที่กําหนดมีคําอาชีพที่เป็นกลางทางเพศเราต้องการให้ทางเลือกทางเพศสําหรับมันเมื่อไม่สามารถกําหนดเพศได้จากข้อมูลอื่น ๆ ในประโยค ตัวอย่างเช่น: ในการแปลประโยคภาษาอังกฤษ "ทนายความพบคนขับรถของเธอที่ล็อบบี้โรงแรม" เป็นภาษาฝรั่งเศสเราสามารถระบุได้ว่าทนายความเป็นผู้หญิงในขณะที่ไม่ทราบเพศของคนขับ
การสร้างการแปลอื่น
เมื่อประโยคต้นฉบับมีเพศคลุมเครือเราจะตรวจสอบผลลัพธ์ของระบบการแปลของเราเพื่อตัดสินใจว่าการตีความเพศทางเลือกเป็นไปได้หรือไม่ ถ้าเป็นเช่นนั้นเราจะดําเนินการกําหนดวิธีที่ดีที่สุดในการแก้ไขการแปล เราเริ่มต้นด้วยการสร้างชุดการแปลเป้าหมายของผู้สมัครโดยการเขียนคําแปลต้นฉบับใหม่ เราใช้ข้อ จํากัด ทางภาษาตามความสัมพันธ์แบบพึ่งพาเพื่อให้แน่ใจว่ามีความสม่ําเสมอในทางเลือกที่เสนอและตัดผู้สมัครที่ผิดพลาด
อย่างไรก็ตามในหลายกรณีแม้หลังจากใช้ข้อ จํากัด ของเราแล้วเราจะเหลือผู้สมัครหลายคนที่เขียนใหม่สําหรับการแปลทางเลือกทางเพศ ในการกําหนดตัวเลือกที่ดีที่สุดเราประเมินผู้สมัครแต่ละคนโดยให้คะแนนด้วยรูปแบบการแปลของเรา ด้วยการใช้ประโยชน์จากความจริงที่ว่าการเขียนเพศที่ดีจะเป็นการแปลประโยคต้นฉบับที่ถูกต้องเราสามารถรับประกันความแม่นยําสูงในผลลัพธ์สุดท้ายของเรา
การใช้ประโยชน์จากปลายทางออนไลน์ที่มีการจัดการใน Azure Machine Learning
คุณลักษณะทางเลือกทางเพศใน Bing ถูกโฮสต์บน อุปกรณ์ปลายทางออนไลน์ที่มีการจัดการ ใน Azure Machine Learning ปลายทางแบบออนไลน์ที่มีการจัดการมีอินเทอร์เฟซแบบรวมเพื่อเรียกใช้และจัดการการปรับใช้โมเดลบนการประมวลผลที่จัดการโดย Microsoft ในลักษณะเบ็ดเสร็จ สิ่งเหล่านี้ช่วยให้เราสามารถใช้ประโยชน์จากปลายทางที่ปรับขนาดได้และเชื่อถือได้โดยไม่ต้องกังวลเกี่ยวกับการจัดการโครงสร้างพื้นฐาน สภาพแวดล้อมการอนุมานนี้ยังช่วยให้สามารถประมวลผลคําขอจํานวนมากที่มีเวลาแฝงต่ํา ความสามารถของเราในการสร้างและปรับใช้บริการ debias เพศด้วยเฟรมเวิร์กและเทคโนโลยีล่าสุดได้รับการปรับปรุงอย่างมากผ่านการใช้คุณลักษณะการอนุมานที่มีการจัดการใน Azure Machine Learning ด้วยการใช้ประโยชน์จากคุณสมบัติเหล่านี้เราสามารถรักษา COGS ต่ํา (ต้นทุนสินค้าที่ขาย) และรับประกันความปลอดภัยและการปฏิบัติตามความเป็นส่วนตัวอย่างตรงไปตรงมา
คุณจะมีส่วนร่วมได้อย่างไร?
เพื่ออํานวยความสะดวกในความคืบหน้าในการลดอคติทางเพศใน MT เรากําลังเผยแพร่คลังทดสอบที่มีตัวอย่างการแปลที่คลุมเครือทางเพศจากภาษาอังกฤษเป็นภาษาสเปนฝรั่งเศสและอิตาลี ประโยคต้นฉบับภาษาอังกฤษแต่ละประโยคมาพร้อมกับการแปลหลายฉบับซึ่งครอบคลุมแต่ละรูปแบบที่เป็นไปได้
ชุดทดสอบของเราสร้างขึ้นเพื่อท้าทาย อุดมไปด้วยสัณฐานวิทยา และมีความหลากหลายทางภาษา คลังข้อมูลนี้เป็นเครื่องมือในกระบวนการพัฒนาของเรา มันได้รับการพัฒนาด้วยความช่วยเหลือของนักภาษาศาสตร์สองภาษาที่มีประสบการณ์การแปลที่สําคัญ นอกจากนี้เรายังเผยแพร่เอกสารทางเทคนิคที่กล่าวถึงคลังทดสอบโดยละเอียดและวิธีการและเครื่องมือสําหรับการประเมิน
GATE: ชุดความท้าทายสําหรับตัวอย่างการแปลที่ไม่ชัดเจนทางเพศ – กระดาษ
GATE: ชุดความท้าทายสําหรับตัวอย่างการแปลที่ไม่ชัดเจนทางเพศ - ชุดทดสอบ
เส้นทางไปข้างหน้า
ด้วยงานนี้เรามุ่งมั่นที่จะปรับปรุงคุณภาพของเอาต์พุต MT ในกรณีที่มีเพศแหล่งที่มาที่คลุมเครือรวมถึงอํานวยความสะดวกในการพัฒนาเครื่องมือการประมวลผลภาษาธรรมชาติ (NLP) ที่ดีขึ้นและครอบคลุมมากขึ้นโดยทั่วไป รุ่นแรกของเรามุ่งเน้นไปที่การแปลจากภาษาอังกฤษเป็นภาษาสเปนฝรั่งเศสและอิตาลี ในอนาคตเราวางแผนที่จะขยายไปยังคู่ภาษาใหม่รวมทั้งครอบคลุมสถานการณ์และประเภทของอคติเพิ่มเติม
เครดิต:
รัญชิตา นาอิก, สเปนเซอร์ ราริค, ซุนดาร์ ปูเดล, วารุน มาเธอร์, เจชวันท์ กุมาร จันทราลา, จรัญ โมฮัน, ลี ชวาร์ตซ์, สตีเวน เหงียน, อมิต ภควัฒน์, วิศัลย์ เชาว์ธารี