Politisch inkorrekte Maschinen
Während wir im Team von Machine Translation in den letzten Monaten einen zunehmenden Traffic auf unsere verschiedenen Angebote verzeichnen konnten, haben wir gestern einen plötzlichen Trafficanstieg festgestellt. Aufgewachsen mit Agatha Christie und Sherlock Holmes, sind solche Rätsel für mich unwiderstehlich - und eine Reihe anderer Leute im Team waren genauso neugierig, herauszufinden, was diese plötzliche Beule verursacht hat. Wir dachten uns, dass die IE8-Aktivität/BeschleunigerDie Messenger Bot, Übersetzungen suchen, Büroübersetzungen zeigten alle den gleichen Aufwärtstrend wie in den Tagen zuvor und waren somit nicht der eigentliche Grund für diesen Anstieg.
Schließlich konnten wir einen potenziellen Grund identifizieren, warum wir diesen Anstieg sahen. Unsere Benutzergemeinschaft fand eine Besonderheit darin, wie die maschinelle Übersetzungsmaschine die Übersetzung für mehrere Namen vom Englischen ins Deutsche verarbeitet. Es war zu erwarten, dass, wenn der Motor den Namen des Kandidaten einer Partei in jemanden der anderen Partei übersetzt, angesichts der aktuellen politischen Atmosphäre im Vorfeld der US-Wahlen, dies als Nachricht enden würde. Wir begrüßen zwar alle neuen Benutzer, die gekommen sind, um sich dieses Phänomen anzusehen, aber wir wollten unseren Benutzern mitteilen, warum solche Dinge von Zeit zu Zeit mit statistisch geschulten maschinellen Übersetzungssystemen von uns und anderen geschehen.
Eine Statistical Machine Translation Engine wird auf viele und viele parallele Daten trainiert, d.h. Daten, die sowohl in einer Quellsprache (z.B. Englisch) als auch in einer Zielsprache (z.B. Deutsch) vorliegen, wobei Quelle und Ziel Übersetzungen voneinander sind. Unsere Engine ist auf Millionen von Sätzen für jedes von uns unterstützte Sprachpaar geschult. Um auf einem bestimmten Datenkorpus zu trainieren - vielleicht eine große Anzahl von englischen Newswire-Artikeln, die ins Deutsche übersetzt wurden - müssen wir diesen Korpus zunächst in Sätze zerlegen. Nachdem der Korpus gebrochen ist, leiten wir die resultierenden Sätze in einen Satzausrichter ein, dessen einziger Zweck es ist, herauszufinden, welche Sätze auf der Quellseite mit Sätzen auf der Zielseite übereinstimmen. Das ist keine triviale Aufgabe, denn ein Satz auf einer Seite könnte sich durchaus mit einem oder mehreren Sätzen auf dem Ziel (oder möglicherweise gar keinem!) decken. Der Ausrichter macht manchmal Fehler und richtet einen Satz falsch aus, der in Wirklichkeit keine Übersetzung ist. Dies kann zu einigen Übersetzungsfehlern führen, insbesondere wenn es Wörter in Quelle und Ziel gibt, die selten vorkommen. Da unsere Übersetzungsmaschine statistisch ist, ist sie in hohem Maße abhängig von der Häufigkeit des Zusammenkommens von Wörtern in den Quell- und Zieldaten. Wenn bestimmte Wörter selten vorkommen - z.B. können die Namen von Personen nur einige Male in einem Korpus von Millionen von Sätzen vorkommen - kann die fehlende Häufigkeit zu Fehlinterpretationen führen, die auf falsche "Vermutungen" zwischen Quelle und Ziel zurückzuführen sind (d.h. niedrige Wahrscheinlichkeiten, die bestimmten Quell- und Zielwörtern zugeordnet sind). Dies kann zu komischen Fehlern in unserem Übersetzungssystem führen.
So entschied sich die "Maschine" also, so zu übersetzen, dass die Gemeinschaft sie dem Humor unseres Teams zuschrieb. Während wir weiterhin hart daran arbeiten, eine angemessene Anpassung zu gewährleisten, ist es von einem statistischen System zu erwarten, das auf Millionen bis Milliarden von Wörtern aufbaut, dass sich eine solche Situation wiederholen könnte.
Das aktuelle Problem mit der Ausrichtung sollte nun gelöst werden, aber wir bitten unsere Benutzergemeinschaft, uns weiterhin zu helfen, solche Situationen zu identifizieren, indem sie uns über diesen Blog kontaktiert.
-a.