ข้ามไปที่เนื้อหาหลัก
Translator
หน้านี้ได้รับการแปลโดยอัตโนมัติโดยบริการแปลภาษาเครื่องของ Microsoft แปล ศึกษาเพิ่มเติม

ไมโครซอฟท์แปลบล็อก

ตัวแปล Microsoft ออกการแปลภาษาจีนวรรณกรรม

เมื่ออ่าน โบราณ จีน บทกวีเรามักจะประหลาดใจกับคําที่ยอดเยี่ยมมากที่นักเขียนโบราณสามารถใช้เพื่ออธิบายผู้คนเหตุการณ์วัตถุและฉาก นี่คือสมบัติทางวัฒนธรรมที่ยอดเยี่ยมที่ถูกทิ้งไว้ข้างหลังสําหรับเรา อย่างไรก็ตามคล้ายกับเช็คสเปียร์'ข้อพระคัมภีร์ในภาษาอังกฤษ, วรรณกรรมจีนที่ใช้โดยกวีเหล่านี้มักจะเป็นเรื่องยากสําหรับคนสมัยใหม่ที่จะเข้าใจ, และความหมายและรายละเอียดปลีกย่อยที่ฝังอยู่ภายในมันมักจะหายไป.  

เพื่อแก้ปัญหานี้นักวิจัยของ Microsoft Research Asia ได้นําเทคนิคการแปลด้วยเครื่องประสาทล่าสุดมาใช้ในการฝึกอบรมรูปแบบการแปลโดยตรงระหว่างภาษาจีนวรรณกรรมและภาษาจีนสมัยใหม่ซึ่งยังส่งผลให้เกิดความสามารถในการแปลระหว่างภาษาจีนวรรณกรรมและ มากกว่า90ภาษาอื่นๆ และภาษาถิ่นในตัวแปลของ Microsoft ปัจจุบันการแปลภาษาจีนวรรณกรรมได้รับการรวมเข้ากับ แอป Microsoft แปล, นักแปลบริการความรู้ความเข้าใจของ Azureและผลิตภัณฑ์ Microsoft จํานวนมากที่ได้รับการสนับสนุนโดยบริการตัวแปลของ Microsoft 

ภาพ: ภาพวาดจาก "West Mountain in Misty Rain" โดย Shen Zhou ราชวงศ์หมิง บทกวีจีนโบราณบนภาพวาดมาจาก หยง หลิว ราชวงศ์ซ่งเหนือ บทกวีแสดงให้เห็นถึงทิวทัศน์ฤดูใบไม้ผลิทางตอนใต้ของจีนในช่วงเทศกาลชิงหมิงและความเจริญรุ่งเรืองของชีวิตทางสังคม

ทําให้ผู้คนชื่นชมเสน่ห์ของวัฒนธรรมจีนดั้งเดิมมากขึ้น 

วรรณกรรมจีนเป็นผู้ให้บริการที่สําคัญทางวัฒนธรรมจีนแบบดั้งเดิม หนังสือและตํารามากมายในสมัยโบราณได้บันทึกประเทศจีน'วัฒนธรรมที่หลากหลายและลึกซึ้งในช่วงห้าพันปีที่ผ่านมา ความคิดและภูมิปัญญาที่สะสมและมีอยู่ในนั้นมีค่าควรแก่การสํารวจและคิดอย่างต่อเนื่อง  

ด้วยความช่วยเหลือของการแปลด้วยเครื่องนักท่องเที่ยวสามารถเข้าใจตําราจีนและบทกวีโบราณที่เขียนบนอาคารประวัติศาสตร์และอนุสาวรีย์ตอนนี้นักเรียนมีเครื่องมือพิเศษเพื่อช่วยให้พวกเขาเรียนรู้ภาษาจีนและนักวิจัยที่มีส่วนร่วมในการรวบรวมและแปลตําราโบราณจะมีประสิทธิผลมากขึ้น     

Dongdong Zhang นักวิจัยหลักของ Microsoft Research Asia กล่าวว่า "จากมุมมองทางเทคนิคภาษาจีนวรรณกรรมถือได้ว่าเป็นภาษาแยกต่างหาก เมื่อการแปลระหว่างภาษาจีนวรรณกรรมและภาษาจีนสมัยใหม่ตระหนักดีการแปลระหว่างภาษาจีนวรรณกรรมและภาษาอื่น ๆ เช่นอังกฤษฝรั่งเศสและเยอรมันกลายเป็นเรื่องแน่นอน"  

ความยากลําบากที่ใหญ่ที่สุดของการแปลวรรณกรรมจีนแบบจําลอง AI: ข้อมูลการฝึกอบรมน้อย 

องค์ประกอบที่สําคัญที่สุดของการฝึกอบรมแบบจําลอง AI คือข้อมูล เฉพาะเมื่อปริมาณข้อมูลมีขนาดใหญ่พอและมีคุณภาพสูงพอ สามารถ คุณ ฝึกรูปแบบที่แม่นยํายิ่งขึ้น ในการแปลภาษาด้วยเครื่องการฝึกอบรมของแบบจําลองต้องการข้อมูลสองภาษา: ข้อมูลข้อความต้นฉบับและข้อมูลภาษาเป้าหมาย การแปลวรรณกรรมจีนนั้นพิเศษมาก, ตามนั้น'ไม่ใช่ภาษาที่ใช้ในชีวิตประจําวัน  ดังนั้นเมื่อเทียบกับการแปลภาษาอื่น ๆ ข้อมูลการฝึกอบรมของการแปลภาษาจีนวรรณกรรมมีขนาดเล็กมากซึ่งไม่เอื้อต่อการฝึกอบรมรูปแบบการแปลด้วยเครื่อง   

แม้ว่านักวิจัยของ Microsoft Research Asia จะรวบรวมข้อมูลวรรณกรรมและภาษาจีนสมัยใหม่ที่มีอยู่ทั่วไปจํานวนมากในระยะแรก แต่ข้อมูลต้นฉบับไม่สามารถใช้ได้โดยตรง การทําความสะอาดข้อมูลจะต้องดําเนินการเพื่อปรับข้อมูลจากแหล่งข้อมูลที่แตกต่างกันรูปแบบต่างๆให้เป็นปกติรวมถึงความกว้างเต็ม /เครื่องหมายวรรคตอนครึ่งความกว้าง, เพื่อลดการรบกวนของข้อมูลที่ไม่ถูกต้องในการฝึกอบรมแบบจําลอง ด้วยวิธีนี้ข้อมูลคุณภาพสูงที่มีอยู่จริงจะลดลงอีก  

จากข้อมูลของ Shuming Ma นักวิจัยของ Microsoft Research Asia เพื่อลดปัญหาการเบาบางของข้อมูลนักวิจัยได้ดําเนินการสังเคราะห์ข้อมูลและการเสริมจํานวนมากรวมถึง: 

ตัวแรกของอักขระทั่วไป ตามการจัดตําแหน่งและการขยายตัวเพื่อเพิ่มขนาดข้อมูลการฝึกอบรม แตกต่างจาก การแปลระหว่างภาษาจีนและภาษาอื่น ๆ เช่นอังกฤษฝรั่งเศสรัสเซีย ฯลฯ วรรณกรรมจีนและจีนสมัยใหม่ใช้ชุดอักขระเดียวกัน การใช้ประโยชน์จากคุณลักษณะนี้นักวิจัยของ Microsoft Research Asia ได้ใช้อัลกอริธึมที่เป็นนวัตกรรมเพื่อให้การแปลด้วยเครื่องสามารถเรียกคืนอักขระทั่วไปดําเนินการจัดตําแหน่งตามธรรมชาติจากนั้นขยายไปสู่คําวลีและประโยคสั้น ๆ ซึ่งจะช่วยสังเคราะห์ข้อมูลที่สามารถใช้งานได้จํานวนมาก  

ประการที่สองเปลี่ยนโครงสร้างประโยคเพื่อปรับปรุงความทนทานของการแปลด้วยเครื่อง เกี่ยวกับ นักวิจัยได้เพิ่มตัวแปรจํานวนมากเพื่อทําให้เครื่องจักรครอบคลุมการเรียนรู้บทกวีโบราณมากขึ้น สําหรับคนแม้ว่าพวกเขาจะเห็นประโยคที่มีโครงสร้างผิดปกติเช่นบทกวีที่แบ่งออกเป็นเส้นตามจังหวะมากกว่าประโยคเต็มพวกเขายังสามารถรวมชิ้นส่วนเข้าด้วยกันและเข้าใจได้ แต่สําหรับรูปแบบการแปลที่ไม่เคยเห็นการแบ่งส่วนดังกล่าวมาก่อนอาจสับสน ดังนั้นการแปลงรูปแบบข้อมูลไม่เพียง แต่สามารถขยายปริมาณข้อมูลการฝึกอบรม แต่ยังปรับปรุงความแข็งแกร่งของการฝึกอบรมรูปแบบการแปล  

ประการที่สามดําเนินการฝึกอบรมการแปลตัวละครแบบดั้งเดิมและเรียบง่ายเพื่อเพิ่มการปรับตัวของแบบจําลอง ในภาษาจีนตัวอักษรแบบดั้งเดิมมีอยู่ในทั้งวรรณกรรมและจีนสมัยใหม่ เมื่อนักวิจัยฝึกอบรมแบบจําลองเพื่อปรับปรุงการปรับตัวของแบบจําลองพวกเขาไม่เพียง แต่ใช้ประโยชน์จากข้อมูลในภาษาจีนประยุกต์ แต่ยังเพิ่มข้อมูลในภาษาจีนดั้งเดิมรวมถึงข้อมูลผสมกับตัวอักษรแบบดั้งเดิมและเรียบง่าย ดังนั้นแบบจําลองสามารถเข้าใจทั้งเนื้อหาแบบดั้งเดิมและเรียบง่ายซึ่งนําไปสู่ผลการแปลที่แม่นยํายิ่งขึ้น   

ประการที่สี่เพิ่มการฝึกอบรมคําศัพท์ภาษาต่างประเทศเพื่อปรับปรุงความถูกต้องของการแปล เมื่อแปลภาษาจีนสมัยใหม่เป็นภาษาจีนวรรณกรรมมักจะมีคําที่ทันสมัยมาจากคําภาษาต่างประเทศและคําใหม่ที่ไม่เคยปรากฏในภาษาจีนโบราณเช่น "Microsoft", "คอมพิวเตอร์", "รถไฟความเร็วสูง" และอื่น ๆ อีกมากมายชอบมัน เพื่อจัดการกับปัญหานี้นักวิจัยได้ฝึกอบรมแบบจําลองขนาดเล็กเพื่อจดจําหน่วยงาน แบบจําลองแรกแปลความหมายของคํานอกเอนทิตีแล้วกรอกเอนทิตีกลับเข้ามาเพื่อให้แน่ใจว่าความถูกต้องของเครื่อง'การประมวลผลของคําต่างประเทศ    

ภาพ: Tเขา วรรณกรรมจีน กระบวนการแปล

นอกจากนี้สําหรับรูปแบบการเขียนอย่างไม่เป็นทางการเช่นบล็อกฟอรัม Weibo และอื่น ๆ รูปแบบการแปลภาษาด้วยเครื่องได้รับการฝึกอบรมโดยเฉพาะเพื่อปรับปรุงความแข็งแกร่งของการแปลระหว่างภาษาจีนสมัยใหม่และวรรณกรรม  

Dongdong Zhang กล่าวว่า "จากระบบการแปลในปัจจุบันเราจะยังคงเพิ่มคุณค่าให้กับชุดข้อมูลและปรับปรุงวิธีการฝึกอบรมแบบจําลองเพื่อให้มีประสิทธิภาพและหลากหลายมากขึ้น ในอนาคตวิธีการนี้อาจไม่เพียง แต่ใช้สําหรับการแปลภาษาจีนวรรณกรรม เท่านั้น แต่ยังสามารถขยายไปยังสถานการณ์การใช้งานอื่น ๆ ได้"