תרגום רב לשוני בקנה מידה: 10000 זוגות שפות ומעבר
מיקרוסופט נמצאת בחיפוש אחר באני באני בסקאלה עם שאיפה גבוהה לאפשר את הדור הבא של חוויות ב-AI. המתרגם של מיקרוסופט ZCode הצוות עובד יחד עם פרויקט טיורינג של מיקרוסופט ומיקרוסופט מחקר אסיה כדי לקדם שפה ותמיכה רב לשונית בליבת יוזמה זו. אנו ממשיכים לדחוף גבולות עם מודלים רב-לשוניים כדי לתמוך בתרחישי שפה שונים ברחבי Microsoft. בקיץ שעבר, הכרזנו על קנה המידה הגדול שלנו תערובת רב לשונית של מומחה דגם עם במהי ספא שיכולים להשיג ביצועים טובים יותר מדגמים דו-לשוניים בקנה מידה גדול. לאחרונה, מודל ייצוג השפה האוניברסלית האחרון של טיורינג (T-ULRv5), מודל שנוצר על ידי מיקרוסופט הוא שוב המצב החדיש ובראש גוגל לוח מוביל ציבורי של XTREME באותו זמן. לאחרונה, מיקרוסופט הכריזה על הגדול ביותר מגהטרון-טיורינג NLG 530B מודל פרמטרים.
הכנס השנתי לתרגום מכונה (aka WMT 2021) הסתיים בשבוע שעבר בפונטה קאנה היפה, הרפובליקה הדומיניקנית. WMT מפגיש חוקרים מכל תחום תרגום המכונות, הן בתעשייה והן באקדמיה, כדי להשתתף בסדרה של משימות משותפות, שכל אחת מהן מגדירה אמת מידה בתחום חשוב של תרגום מכונה כדי לדחוף את התחום לגבולות חדשים.
צוות המתרגם של Microsoft ZCode, שעבד יחד עם צוות טיורינג ומיקרוסופט מחקר אסיה, התחרה במסלול "תרגום רב לשוני בקנה מידה גדול", שכלל משימה מלאה של תרגום בין כל 10,000 הכיוונים על פני 101 שפות, ושתי משימות קטנות: אחת התמקדה ב-5 שפות מרכז ודרום אירופה, ואחת על 5 שפות דרום-מזרח אסיה. דגם Microsoft ZCode-DeltaLM זכה בכל שלוש המשימות בהפרשים עצומים, כולל רווח מדהים של 10+ נקודות על דגם M2M100 במשימה הגדולה המוערכת ב-10,000 זוגות שפה מסיביים. (ממצאי המשימה המשותפת WMT 2021 על תרגום מכונה רב לשוני בקנה מידה גדולWenzek ואח ', WMT 2021).,
איור 1: תוצאות רשמיות (ציונים BLEU) על המשימה המלאה ואת המשימה הקטנה1 במשימה המשותפת של תרגום רב לשוני בקנה מידה גדול WMT 2021
גישת ZCode-DeltaLM
בפוסט בבלוג זה, בואו נסתכל מתחת למכסה המנוע במודל המנצח של Microsoft ZCode-DeltaLM. נקודת המוצא שלנו הייתה DeltaLM (DeltaLM: מקודד-מפענח אימון קדם ליצירת שפה ותרגום על ידי הגדלת מקודדים רב לשוניים מאומנים מראש), האחרונה בסדרה העוצמתית יותר ויותר של מודלים מסיביים של שפות טרום-לשוניות ממיקרוסופט.
DeltaLM הוא מודל מקודד-מפענח, אך במקום להתאמן מאפס, הוא מאותחל ממודל מקודד חדשני שעבר הכשרה מראש בלבד, במיוחד (TULRv3). בעוד אתחול המקודד הוא פשוט, המפענח הוא פחות, שכן הוא מוסיף תשומת לב צולבת לתשומת הלב העצמית של המקודד. DeltaLM פותרת בעיה זו עם ארכיטקטורה משולבת חדשנית, שבה תשומת הלב העצמית וההצלבה מתחלפות בין שכבות, עם תשומת הלב העצמית המשמשת בשכבות המוזרות ותשומת הלב הצולבת המשמשת בשכבות הזוגיות. עם שיתוף פעולה זה, מבנה המפענח תואם את המקודד, וכך ניתן גם לאתחל אותו באותו אופן מ- TULRv3.
DeltaLM מוגברת על-ידי למידה רב-תכתית רבת עוצמה של ZCode: למידה רב-משימתית לתרגום מכונה עצבית רב-לשונית. המודלים שלנו מראים כי שילוב של ריבוי משימות ולמידה רב לשונית יכול לשפר באופן משמעותי את ההכשרה למודלים גדולים של שפה טרום-מיומנת. פרדיגמת למידה רב-לשונית רב-לשונית שכזו ממנפת את ההטיה האינדוקטיבית ואת ההסדרה ממספר משימות ושפות בו זמנית כדי לבצע משימות שונות במורד הזרם. אנו משתמשים במשימת תרגום, דנים משימת מקודד אוטומטי ותרגום טווח משימת השחתה כפי שמוצג באיור שלהלן.
זכייה במסלול התרגום הרב לשוני המסיבי
כדי לבנות את מערכת התרגום הרב-לשונית המנצחת שלנו (מערכות תרגום מכונה רב-לשוניות מ- Microsoft עבור המשימה המשותפת WMT21), התחלנו עם zCode-DeltaLM, והוספנו כמה טריקים.
אנו מיישמים למידה מתקדמת, מאמנים תחילה מודל עם 24 שכבות מקודד ו-12 שכבות מפענח, ולאחר מכן ממשיכים להתאמן עם 12 שכבות מקודד נוספות, וכתוצאה מכך מקודד שכבות עמוק של 36. כדי לכסות את כל זוגות השפות, אנו יוצרים נתונים כפולים-מדומים-מקבילים שבהם שני צידי הנתונים המקבילים סינתטיים, מתורגמים על ידי המודל מאנגלית. אנו מיישמים גם תרגום אחורי איטרטיבי כדי ליצור נתונים סינתטיים. אנו מיישמים למידה בתוכנית הלימודים, החל מכל נתוני ההכשרה הרועשים, ולאחר מכן צמצמנו אותם לתת-קבוצה נקייה. אנו שוקלים מחדש את מטרת התרגום כדי להעדיף נתונים מקבילים על פני התרגום האחורי והנתונים המקבילים הכפולים. אנו מיישמים דגימת טמפרטורה כדי לאזן בין זוגות שפה. עבור כל זוג שפות, אנו בוחרים, בהתבסס על ערכת dev, אם להעדיף תרגום ישיר או תרגום ציר באמצעות אנגלית.
אם נחבר את הכל יחד, ידענו שיש לנו מערכת רב לשונית מדהימה, אבל התוצאות הרשמיות על סט הבדיקות העיוורות עלו על הציפיות שלנו. הבקענו 2.5 עד 9 BLEU לפני המתחרה הבא, ו-10 עד 21 נקודות BLEU לפני דגם M2M-175 הבסיסי. במבחן ההפחתה השווינו לדגם M2M-615 הגדול יותר, אותו ניצחנו גם ב-10 עד 18 נקודות.
מעבר לתרגום: יצירת שפה אוניברסלית
בעוד אנו נרגשים מהניצחון הגדול ב- WMT 2021, מה שמרגש עוד יותר הוא שבניגוד למתחרים האחרים, מודל ZCode-DeltaLM שלנו אינו רק מודל תרגום, אלא מודל כללי של שפת מקודד-מפענח מקדם, שמיש לכל מיני משימות דור מעבר לתרגום. זה באמת מאפשר למודלים שלנו לבצע די טוב במשימות שונות של יצירת שפה טבעית רב לשונית.
הגענו ל- SOTA חדש במשימות רבות של הדור הפופולרי מ בחינת ביצועים של GEMכולל ויקילינגואה (סיכום), פישוט טקסט (ויקי-אוטו) ומבנה לטקסט (WebNLG). דגם DeltaLM-ZCode עולה באופן נרחב על דגמים גדולים בהרבה כגון mT5 XL (3.7B) אשר מאומן גם על נתונים גדולים בהרבה. זה הדגים את היעילות והרבגוניות של הדגמים שהובילו לביצועים חזקים במשימות רבות.
איור 2. ביצועים (ציוני RL) של ZCode-DeltaLM בפעילויות הסיכום ופישוט הטקסט במדד GEM
במבט קדימה
תרגום מכונה רב לשוני הגיע לנקודה שבה הוא מבצע היטב, חריגה ממערכות דו-לשוניות, הן בשפות משאבים נמוכות והן בשפות משאבים גבוהות. תערובת של מודלים מומחים (MoE) הוכחו להיות התאמה טובה מאוד כדי להגדיל מודלים כאלה כפי שהוצג GShard. אנו חוקרים כיצד לשנות ביעילות מודלים כאלה עם תערובת של מומחים: הדרכה מדרגית ויעילה של משרד החינוך לדגמים רב-לשוניים מרובי משימות. מודלים של MoE עם נתונים רב-לשוניים מסיביים והכשרה מרובת משימות ללא פיקוח מציגים הזדמנות לא צפויה למודלים כאלה לספק מערכות אוניברסליות באמת שיכולות לאפשר עוד יותר לצוות Microsoft Translator להסיר מחסומי שפה ברחבי העולם, כמו גם לתמוך במגוון משימות של יצירת שפות טבעיות.
הכרות
ברצוננו להודות ולהודות לפרנסיסקו גוזמן וצוותו שאספו את מערך הבדיקות הרב לשוני של FLORES וארגנו את מסלול WMT זה עם הערכה כה גדולה.