ไมโครซอฟท์แปลบล็อก

การแปลเครื่องทางสถิติ–บล็อกผู้เข้าพัก (อัปเดตด้วยกระดาษเพิ่มเติม)

โพสต์เมื่อ 22สิงหาคม๒๐๐๘โดย Microsoft Translator

จะ Lewis เป็นผู้จัดการโปรแกรมบนทีมนักแปล Microsoft, การทำงานเกี่ยวกับคุณภาพของภาษาและการซื้อข้อมูล บล็อกของผู้เข้าพักในวันนี้เป็นคำอธิบายระดับสูงของวิธีการทำงานของเครื่องยนต์:

ในฐานะที่เป็นจำนวนมากของคุณรู้ว่าภายใต้เครื่องดูดควันไมโครซอฟท์แปลถูกขับเคลื่อนด้วยโปรแกรมเครื่องมือการแปลภาษา (SMT) ทางสถิติ ระบบทางสถิติแตกต่างจากกลุ่มที่ใช้กฎในการที่ "กฎ" การแม็พคำและวลีจากภาษาหนึ่งไปยังอีกที่มีการเรียนรู้โดยระบบแทนที่จะเป็นรหัสมือถือ การฝึกอบรม SMT ต้องใช้ข้อมูลการฝึกอบรมแบบคู่ขนานเป็นจำนวนมาก—หวังว่าคุณภาพที่ดีและจากแหล่งที่มาที่แตกต่างกันและการฝึกอบรมเครื่องยนต์ในข้อมูลนั้น เราหมายถึงแหล่งที่มาของข้อมูลที่เนื้อหาสำหรับภาษาหนึ่งจะเหมือนกับเนื้อหาอื่นๆ) เครื่องยนต์เรียนรู้การคำระหว่างคำและวลีในภาษาหนึ่งและผู้ที่อยู่ในอีก, ซึ่งมักจะเสริมด้วยการเกิดซ้ำของคำและวลีเดียวกันตลอดการป้อนข้อมูล. ตัวอย่างเช่นในการฝึกอบรมระบบภาษาอังกฤษเยอรมันสมมติว่าถ้าเครื่องยนต์เห็นวลี สงวน ทางด้านภาษาอังกฤษและสังเกตเห็น -10,000% ในด้านเยอรมัน, มันอาจจะจัดสองวลีเหล่านี้, และกำหนดความน่าจะเป็นบางอย่างเพื่อการจัดตำแหน่งนี้. การเกิดซ้ำของวลีต้นทางและเป้าหมายในข้อมูลการฝึกอบรมจะส่งเสริมการจัดตำแหน่งนี้เท่านั้น

โดยทั่วไปการมีข้อมูลแบบขนานสำหรับคู่ภาษาหมายความว่าเราสามารถฝึกเครื่องยนต์ในทั้งสองทิศทาง (เช่นภาษาอังกฤษภาษาเยอรมันและภาษาเยอรมัน-อังกฤษสามารถฝึกได้ในประโยคป้อนเข้าเดียวกัน) บางคนมีคำถามบางอย่างเกี่ยวกับเหตุผลที่ว่าเราได้เปิดตัวระบบภาษาอังกฤษ-สเปนก่อนที่เราจะปล่อยภาษาสเปน-อังกฤษ มีเหตุผลสองประการ แรก, อังกฤษ-สเปนเป็นคู่ภาษาทั่วไปโดเมนแรกที่เราปล่อยออกมา. การปล่อยคู่ภาษาหนึ่งให้เราทดสอบโครงสร้างพื้นฐานก่อนที่เราจะเริ่มเผยแพร่เพิ่มเติม ประการที่สองเทคโนโลยีสำหรับภาษาสเปน-อังกฤษมีความแตกต่างกันเล็กน้อยกว่าที่ใช้สำหรับภาษาอังกฤษ-สเปนและเราต้องการเวลาเพิ่มเติมเพื่อทำการเปลี่ยนแปลง infrastructural ที่จำเป็นเพื่อรองรับ ในอนาคตเราวางแผนที่จะปล่อยระบบการแปลใหม่เป็นคู่ (มีข้อยกเว้นสองเท่า) ฉันไม่สามารถเปิดเผยภาษาที่เราได้วางแผนไว้ต่อไปแต่คาดหวังคนใหม่เร็วๆนี้!

สำหรับผู้ที่สนใจในการอภิปรายทางเทคนิคเกี่ยวกับเครื่องยนต์ของเราและวิธีการทำงานของพวกเขาโปรดดูที่บางส่วนของเอกสารโดยนักวิจัยที่พัฒนาพวกเขา เอกสารที่สามของหมายเหตุมีดังนี้:

คริสแปลก, Arul เราต้องการวลีหรือไม่? การท้าทายภูมิปัญญาทั่วไปในการแปลภาษาด้วยเครื่องจักรทางสถิติ พฤษภาคม๒๐๐๖นิวยอร์ก, นิวยอร์ก, สหรัฐอเมริกา การดำเนินการของ HLT-NAACL ๒๐๐๖

คริสแปลก, Arul การแปลการอ้างอิง Treelet: การบรรจบกันของสถิติและตัวอย่างการแปลเครื่องตาม? มีนาคม๒๐๐๖เครื่องมือแปล 43-65 (ไฟล์ที่แนบ)

คริสแปลก, Arul การใช้แม่แบบใบสั่งการอ้างอิงเพื่อปรับปรุงทั่วไปในการแปล กรกฎาคม๒๐๐๗ สมาคมการคำนวณภาษาศาสตร์

การแปลความหมายการอ้างอิงการบรรจบกันของสถิติและตัวอย่างการแปลที่อ้างอิง. pdf