การแปลหลายภาษาในขนาด: คู่ภาษา 10000 คู่ขึ้นไป
ไมโครซอฟท์กําลังค้นหา AI ในระดับ ด้วยความทะเยอทะยานสูงที่จะเปิดใช้งานประสบการณ์ AI รุ่นต่อไป ตัวแปลไมโครซอฟท์ ZCode ทีมงานทํางานร่วมกับ ไมโครซอฟท์ โปรเจค ทัวริง และ Microsoft Research Asia เพื่อพัฒนาการสนับสนุนด้านภาษาและหลายภาษาเป็นหัวใจสําคัญของความคิดริเริ่มนี้ เรายังคงผลักดันพรมแดนด้วยโมเดลหลายภาษาเพื่อสนับสนุนสถานการณ์ภาษาต่างๆ ทั่วทั้ง Microsoft ฤดูร้อนที่แล้วเราประกาศขนาดใหญ่ของเรา ส่วนผสมหลายภาษาของผู้เชี่ยวชาญ รุ่นที่มี ดีพสปีด ที่สามารถมีประสิทธิภาพเหนือกว่าแต่ละรุ่นสองภาษาขนาดใหญ่ เมื่อเร็ว ๆ นี้รูปแบบการเป็นตัวแทนภาษาสากลของทัวริงล่าสุด (ที-อูลอาร์ฟ5) โมเดลที่สร้างโดย Microsoft เป็นรัฐของศิลปะอีกครั้งและที่ด้านบนของ Google ลีดเดอร์บอร์ดสาธารณะ XTREME ในเวลานั้น เมื่อเร็ว ๆ นี้ Microsoft ประกาศที่ใหญ่ที่สุด เมกะทรอน-ทัวริง NLG 530B แบบจําลองพารามิเตอร์
การประชุมประจําปีเกี่ยวกับการแปลด้วยเครื่อง (หรือ WMT 2021) ได้ข้อสรุปเมื่อสัปดาห์ที่แล้วใน Punta Cana ที่สวยงามสาธารณรัฐโดมินิกัน WMT รวบรวมนักวิจัยจากทั่วทั้งสาขาการแปลด้วยเครื่องทั้งในอุตสาหกรรมและสถาบันการศึกษาเพื่อเข้าร่วมในชุดของงานที่ใช้ร่วมกันแต่ละงานกําหนดเกณฑ์มาตรฐานในพื้นที่สําคัญของการแปลด้วยเครื่องเพื่อผลักดันสนามไปสู่พรมแดนใหม่
ทีม Microsoft Translator ZCode ทํางานร่วมกับทีมทัวริงและ Microsoft Research Asia แข่งขันในแทร็ค "การแปลหลายภาษาขนาดใหญ่" ซึ่งประกอบด้วยงานเต็มรูปแบบในการแปลระหว่าง 10,000 ทิศทางใน 101 ภาษาและงานเล็ก ๆ สองงาน: หนึ่งมุ่งเน้นไปที่ 5 ภาษายุโรปกลางและภาคใต้และอีกภาษาหนึ่งใน 5 ภาษาเอเชียตะวันออกเฉียงใต้ โมเดล Microsoft ZCode-DeltaLM ได้รับรางวัลทั้งสามงานด้วยอัตรากําไรมหาศาลรวมถึงกําไร 10+ คะแนนอย่างไม่น่าเชื่อเหนือรุ่น M2M100 ในงานขนาดใหญ่ที่ประเมินในคู่ภาษาขนาดใหญ่ 10,000 คู่ (ผลการวิจัยของงานที่ใช้ร่วมกัน WMT 2021 เกี่ยวกับการแปลด้วยเครื่องหลายภาษาขนาดใหญ่, Wenzek et al, WMT 2021).
รูปที่ 1: ผลลัพธ์อย่างเป็นทางการ (คะแนน BLEU) เกี่ยวกับงานเต็มและงานขนาดเล็ก1 ในงานที่ใช้ร่วมกันการแปลหลายภาษาขนาดใหญ่ WMT 2021
แนวทาง ZCode-เดลต้าแอลเอ็ม
ในโพสต์บล็อกนี้เรามาดูภายใต้ประทุนที่รุ่น Microsoft ZCode-DeltaLM ที่ชนะ จุดเริ่มต้นของเราคือเดลต้าแอลเอ็ม (DeltaLM: การฝึกอบรมล่วงหน้าของตัวถอดรหัสสําหรับการสร้างภาษาและการแปลโดยการเพิ่มตัวเข้ารหัสหลายภาษาที่ผ่านการฝึกอบรมเบื้องต้น) ล่าสุดในชุดที่มีประสิทธิภาพมากขึ้นของรูปแบบภาษาที่ผ่านการอบรมหลายภาษาอย่างหนาแน่นจาก Microsoft
DeltaLM เป็นรุ่นตัวถอดรหัสการเข้ารหัส แต่แทนที่จะฝึกอบรมตั้งแต่เริ่มต้นมันจะถูกเริ่มต้นจากรุ่นเข้ารหัสที่ทันสมัยก่อนหน้านี้โดยเฉพาะ (ทีอาร์วี 3). ในขณะที่การเริ่มต้นตัวเข้ารหัสนั้นตรงไปตรงมาตัวถอดรหัสจะน้อยลงเนื่องจากจะเพิ่มความสนใจข้ามไปยังความสนใจของตัวเองของตัวเข้ารหัส DeltaLM แก้ปัญหานี้ด้วยสถาปัตยกรรมที่ผสมผสานกันซึ่งความสนใจในตนเองและความสนใจข้ามสลับกันระหว่างเลเยอร์ด้วยความสนใจในตัวเองที่ใช้ในชั้นแปลก ๆ และความสนใจข้ามที่ใช้ในชั้นคู่ ด้วยการแทรกแซงนี้โครงสร้างตัวถอดรหัสจะตรงกับตัวเข้ารหัสดังนั้นจึงสามารถเริ่มต้นได้ด้วยวิธีเดียวกันจาก TULRv3
DeltaLM ได้รับการเสริมด้วยการเรียนรู้มัลติทาสก์ที่มีประสิทธิภาพของ ZCode: การเรียนรู้หลายงานสําหรับการแปลเครื่องประสาทหลายภาษา. แบบจําลองของเราแสดงให้เห็นว่าการรวมการเรียนรู้แบบมัลติทาสก์และหลายภาษาสามารถปรับปรุงการฝึกอบรมสําหรับแบบจําลองภาษาที่ผ่านการฝึกอบรมไว้ล่วงหน้าขนาดใหญ่ได้อย่างมีนัยสําคัญ กระบวนทัศน์การเรียนรู้หลายภาษาหลายภาษาเช่นนี้คือการใช้ประโยชน์จากอคติอุปนัยและการทําให้เป็นปกติจากงานและภาษาต่างๆพร้อมกันเพื่อให้ทํางานได้ดีขึ้นในงานปลายน้ําต่างๆ เรากําลังใช้งานการแปลแสดงงานเข้ารหัสอัตโนมัติและงานความเสียหายช่วงการแปลดังแสดงในรูปด้านล่าง
ชนะแทร็กการแปลหลายภาษาอย่างหนาแน่น
เพื่อสร้างระบบการแปลหลายภาษาที่ชนะอย่างหนาแน่นของเรา (ระบบการแปลภาษาหลายภาษาจาก Microsoft สําหรับงานที่ใช้ร่วมกัน WMT21) เราเริ่มต้นด้วย zCode-DeltaLM และเพิ่มเทคนิคเล็กน้อย
เราใช้การเรียนรู้แบบก้าวหน้าก่อนอื่นการฝึกอบรมแบบจําลองที่มีเลเยอร์ตัวเข้ารหัส 24 ชั้นและเลเยอร์ตัวถอดรหัส 12 ชั้นจากนั้นทําการฝึกอบรมต่อไปด้วยเลเยอร์ตัวเข้ารหัสที่เพิ่มเข้ามา 12 ชั้นส่งผลให้ตัวเข้ารหัส 36 ชั้นลึก เพื่อให้ครอบคลุมทุกคู่ภาษาเราสร้างข้อมูลคู่ขนานหลอกที่ทั้งสองด้านของข้อมูลคู่ขนานเป็นสังเคราะห์แปลโดยแบบจําลองจากภาษาอังกฤษ นอกจากนี้เรายังใช้การแปลย้อนกลับแบบรีเรคเพื่อสร้างข้อมูลสังเคราะห์ เราใช้การเรียนรู้หลักสูตรเริ่มต้นด้วยข้อมูลการฝึกอบรมที่มีเสียงดังทั้งหมดจากนั้นลดเป็นชุดย่อยที่สะอาด เราให้น้ําหนักกับวัตถุประสงค์การแปลอีกครั้งเพื่อสนับสนุนข้อมูลแบบขนานผ่านการแปลย้อนกลับและข้อมูลคู่แบบขนานหลอก เราใช้การสุ่มตัวอย่างอุณหภูมิเพื่อความสมดุลระหว่างคู่ภาษา สําหรับแต่ละคู่ภาษาเราเลือกตามชุด dev ไม่ว่าจะชอบการแปลโดยตรงหรือการแปลแบบ pivot ผ่านภาษาอังกฤษ
เมื่อรวมเข้าด้วยกันเรารู้ว่าเรามีระบบหลายภาษาที่น่าทึ่ง แต่ผลลัพธ์อย่างเป็นทางการในชุดทดสอบคนตาบอดเกินความคาดหมายของเรา เราทําคะแนน 2.5 ถึง 9 BLEU ก่อนคู่แข่งรายต่อไปและ 10 ถึง 21 คะแนน BLEU ก่อนรุ่น M2M-175 พื้นฐาน ในการทดสอบ dev เราเปรียบเทียบกับรุ่น M2M-615 ที่ใหญ่กว่าซึ่งเราเอาชนะได้ 10 ถึง 18 คะแนน
นอกเหนือจากการแปล: การสร้างภาษาสากล
ในขณะที่เรารู้สึกตื่นเต้นกับชัยชนะครั้งใหญ่ในงาน WMT 2021 สิ่งที่น่าตื่นเต้นยิ่งกว่านั้นคือแตกต่างจากคู่แข่งรายอื่นรุ่น ZCode-DeltaLM ของเราไม่ได้เป็นเพียงรูปแบบการแปล แต่เป็นรูปแบบภาษาเข้ารหัสถอดรหัสที่ผ่านการอบรมทั่วไปซึ่งสามารถใช้งานได้กับงานรุ่นทุกประเภทนอกเหนือจากการแปล สิ่งนี้ทําให้โมเดลของเราทํางานได้ดีในงานการสร้างภาษาธรรมชาติหลายภาษาต่างๆ
เรามาถึง SOTA ใหม่ในงานรุ่นยอดนิยมมากมายจาก เกณฑ์มาตรฐาน GEMรวมถึงวิกิลิงกัว (สรุป), การทําให้ข้อความง่ายขึ้น (WikiAuto) และโครงสร้างเป็นข้อความ (WebNLG) รุ่น DeltaLM-ZCode มีประสิทธิภาพเหนือกว่ารุ่นที่ใหญ่กว่ามากเช่น mT5 XL (3.7B) ซึ่งได้รับการฝึกฝนเกี่ยวกับข้อมูลขนาดใหญ่เช่นกัน สิ่งนี้แสดงให้เห็นถึงประสิทธิภาพและความเก่งกาจของรุ่นที่นําไปสู่ประสิทธิภาพที่แข็งแกร่งในหลายงาน
รูปที่ 2 ผลการดําเนินงาน (คะแนน RL) ของ ZCode-DeltaLM เกี่ยวกับงานสรุปและการทําให้ข้อความง่ายขึ้นในเกณฑ์มาตรฐาน GEM
มองไปข้างหน้า
การแปลด้วยเครื่องหลายภาษามาถึงจุดที่ทํางานได้ดีมากเกินระบบสองภาษาทั้งภาษาทรัพยากรต่ําและสูง การผสมผสานของผู้เชี่ยวชาญ (MoE) รุ่นได้รับการแสดงให้เห็นว่าเหมาะสมมากที่จะขยายรุ่นดังกล่าวตามที่แสดงใน GShard เราสํารวจวิธีการปรับขนาดโมเดลดังกล่าวอย่างมีประสิทธิภาพด้วยส่วนผสมของผู้เชี่ยวชาญ: การฝึกอบรม MoE ที่ปรับขนาดได้และมีประสิทธิภาพสําหรับโมเดลหลายภาษาหลายภาษา. โมเดล MoE ที่มีข้อมูลหลายภาษาขนาดใหญ่และการฝึกอบรมมัลติทาสก์ที่ไม่ได้รับการดูแลเป็นโอกาสที่ไม่เคยมีมาก่อนสําหรับโมเดลดังกล่าวเพื่อให้ระบบสากลอย่างแท้จริงที่สามารถช่วยให้ทีม Microsoft Translator สามารถกําจัดอุปสรรคด้านภาษาทั่วโลกรวมถึงสนับสนุนงานการสร้างภาษาธรรมชาติที่หลากหลาย
การตอบรับ
เราขอรับทราบและขอบคุณฟรานซิสโกกุซแมนทีมงานของเขาที่รวบรวมชุดทดสอบ FLORES หลายภาษาอย่างหนาแน่นและจัดการแทร็ก WMT นี้ด้วยการประเมินขนาดใหญ่เช่นนี้