מכונות לא נכונות פוליטית
בזמן שאנחנו בצוות תרגום המכונה כבר לראות את התנועה הגוברת הצעות שונות שלנו בחודשים האחרונים, הבחנו בחבטה פתאומית בתנועה אתמול. לאחר שגדלו על אגתה כריסטי ושרלוק הולמס, תעלומות כאלה הם מפתה אותי – ומספר אנשים אחרים בצוות היו מסקרנים בדיוק כדי לגלות מה גרם הבליטה הפתאומית. הנחנו ש פעילות IE8/איץ, ה רובוט מסנג, תרגומי החיפוש, תרגומי משרדים היו כולם מראים את אותה מגמה כלפי מעלה כמו ימים קודם לכן לא היו הסיבה הספציפית לבליטה זו.
בסופו של דבר, הצלחנו לזהות. סיבה אחת פוטנציאלית לראות את היתד קהילת המשתמשים שלנו מצאה מוזרות באופן שבו מנוע תרגום המכונה עיבד את התרגום עבור מספר שמות מאנגלית לגרמנית. היה זה צפוי כי כאשר המנוע מתרגם את שמו של המועמד של צד אחד למישהו מהצד השני, בהתחשב האווירה הפוליטית הנוכחית במנוסה לבחירות בארה ב, כי זה יהיה בסופו של דבר כחדשות. בעוד אנחנו בהחלט מברכים את כל המשתמשים החדשים שהגיעו כדי לבדוק את התופעה הזאת – רצינו לשתף עם המשתמשים שלנו את הסיבה מדוע דברים כאלה נראה קורה מפעם לפעם עם מערכות תרגום מבחינה סטטיסטית ממוחשבת מאיתנו ואחרים.
מנוע תרגום מכונה סטטיסטית מאומן על המון נתונים מקבילים, כלומר, נתונים הקיימים הן שפת המקור (למשל, אנגלית) ושפת היעד (למשל, גרמנית), שם המקור והיעד הם תרגומים אחד של השני. המנוע שלנו מאומן על מיליוני משפטים עבור כל זוג שפה אנו תומכים. כדי להתאמן על מערך מסוים של נתונים-אולי מספר גדול של מאמרים מחדש באנגלית אשר תורגמו לגרמנית-אנחנו הראשונים לשבור את הקורפוס לתוך משפטים. לאחר שהקורפוס מקולקל, אנו מזינים את העונשים הנובעים מתוך משפט התנינים, המטרה היחידה שהיא למצוא את המשפטים בצד המקור להתיישר עם משפטים בצד המטרה. זוהי אינה משימה טריוויאלית, מאחר שמשפט בצד אחד יכול להתיישר עם משפט אחד או יותר על המטרה (או אולי כלל לא!). התנינים טועים לפעמים, ומבלי ליישר משפט אחד עם אחר שהוא למעשה לא תרגום. זה יכול להוביל כמה mistranslations, במיוחד אם יש מילים במקור והיעד כי הם לעיתים רחוקות. מאחר שמנגנון התרגום שלנו הוא סטטיסטי, הוא תלוי מאוד בתדרים משותפים בין מילים במקור ובנתוני היעד. אם מילים מסוימות מתרחשות לעתים רחוקות-שמות האנשים, למשל, יכולים להתרחש רק מספר פעמים על פני קורפוס של מיליוני משפטים – חוסר התדר יכול להוביל לmistranslations כתוצאה מ "ניחושים" שגויים בין המקור ליעד (כלומר, נמוך שהוקצו למילות מקור ויעד מסוימות). זה יכול להוביל כמה gaffes מקומי במערכת התרגום שלנו.
כך, כך "המכונה" החליט לתרגם בדרך שהסתיימה עם הקהילה מייחס אותו לחוש הומור של הקבוצה שלנו. בעוד אנו ממשיכים לעבוד קשה כדי להבטיח המערכים הנכונים, זה צפוי ממערכת סטטיסטית שנבנתה על מיליונים למיליארדי מילים שמצב כזה יכול לחזור.
הבעיה הנוכחית עם היישור צריך עכשיו להיפתר אבל אנחנו מעודדים את הקהילה שלנו המשתמשים להמשיך לעזור לנו לזהות כל מצבים כאלה על ידי פנייה אלינו באמצעות הבלוג הזה.
-ויקראם