Zu Hauptinhalt springen
Translator
Diese Seite wurde automatisch vom maschinellen Übersetzungsdienst von Microsoft Translator übersetzt. Weitere Informationen

Microsoft Translator Blog

Microsoft Translator veröffentlicht literarische chinesische Übersetzung

Beim Lesen uralt Chinesisch Poesie, staunen wir oft über die sehr wunderbaren Worte, die antike Schriftsteller verwenden konnten, um Menschen, Ereignisse, Objekte und Szenen zu beschreiben. Dies ist ein herrlicher kultureller Schatz, der für uns zurückgelassen wurde. Allerdings ähnlich wie Shakespeare'Das literarische Chinesisch, das von diesen Dichtern verwendet wird, ist für moderne Menschen oft schwer zu verstehen, und die darin eingebetteten Bedeutungen und Feinheiten gehen häufig verloren.  

Um dieses Problem zu lösen, haben Forscher von Microsoft Research Asia die neuesten neuronalen maschinellen Übersetzungstechniken eingesetzt, um direkte Übersetzungsmodelle zwischen literarischem Chinesisch und modernem Chinesisch zu trainieren, was auch dazu führt, dass Übersetzungsfähigkeiten zwischen literarischem Chinesisch und mehr als 90 weitere Sprachen und Dialekte in Microsoft Translator. Derzeit wurde die literarische chinesische Übersetzung in die Microsoft Translator App, Azure Cognitive Services-Übersetzerund eine Reihe von Microsoft-Produkten, die von Microsoft Translator-Diensten unterstützt werden. 

Bild: Das Gemälde aus "West Mountain in Misty Rain" von Shen Zhou, Ming-Dynastie. Das alte chinesische Gedicht auf dem Gemälde stammt aus Yong Liu, Nördliche Song-Dynastie. Das Gedicht schildert die Frühlingslandschaft in Südchina während des Qingming-Festivals und den Wohlstand des gesellschaftlichen Lebens.

Mehr Menschen ermöglichen, den Charme der traditionellen chinesischen Kultur zu schätzen 

Literarisches Chinesisch ist ein wichtiger Träger der traditionellen chinesischen Kultur. Umfangreiche Bücher und Texte aus der Antike haben China aufgezeichnet's reiche und tiefgründige Kultur in den letzten fünftausend Jahren. Die Gedanken und Weisheiten, die sich in ihnen angesammelt und enthalten, sind es wert, kontinuierlich erforscht und gedacht zu werden.  

Mit Hilfe der maschinellen Übersetzung können Touristen jetzt alte chinesische Texte und Gedichte verstehen, die auf historischen Gebäuden und Denkmälern geschrieben wurden, studenten haben jetzt ein zusätzliches Werkzeug, das ihnen hilft, Chinesisch zu lernen, und Forscher, die sich mit dem Sammeln und Übersetzen alter Texte beschäftigen, können produktiver sein.     

Dongdong Zhang, leitender Forscher bei Microsoft Research Asia, sagte: "Aus technischer Sicht kann literarisches Chinesisch als eine separate Sprache betrachtet werden. Sobald die Übersetzung zwischen literarischem Chinesisch und modernem Chinesisch realisiert ist, wird die Übersetzung zwischen literarischem Chinesisch und anderen Sprachen wie Englisch, Französisch und Deutsch zur Selbstverständlichkeit."  

Größte Schwierigkeit der literarischen chinesischen Übersetzung KI-Modell: Wenig Trainingsdaten 

Das kritischste Element des KI-Modelltrainings sind Daten. Nur wenn das Datenvolumen groß genug und die Qualität hoch genug ist Dose Sie ein genaueres Modell zu trainieren. Bei der maschinellen Übersetzung erfordert das Training des Modells zweisprachige Daten: Originaltextdaten und Zielsprachdaten. Die Übersetzung des literarischen Chinesisch ist etwas ganz Besonderes, wie es ist"ist keine Sprache, die im täglichen Leben verwendet wird.  Daher sind die Trainingsdaten der literarischen chinesischen Übersetzung im Vergleich zur Übersetzung anderer Sprachen sehr gering, was dem Training von maschinellen Übersetzungsmodellen nicht förderlich ist.   

Obwohl die Forscher von Microsoft Research Asia in der Anfangsphase viele öffentlich zugängliche literarische und moderne chinesische Daten gesammelt haben, können die Originaldaten nicht direkt verwendet werden. Die Datenbereinigung muss durchgeführt werden, um Daten aus verschiedenen Quellen, verschiedenen Formaten sowie in voller Breite zu normalisieren.Interpunktionen halber Breite, als Mittel, um die Interferenz ungültiger Daten beim Modelltraining zu minimieren. Auf diese Weise werden die tatsächlich verfügbaren qualitativ hochwertigen Daten weiter reduziert.  

Laut Shuming Ma, einem Forscher bei Microsoft Research Asia, haben Forscher, um das Problem der Datensparsamkeit zu reduzieren, eine große Menge an Datensynthese- und Augmentationsarbeiten durchgeführt, darunter: 

Erstens, gemeinsamer Charakter basierte Ausrichtung und Erweiterung zur Erhöhung der Größe der Trainingsdaten. Anders als Übersetzungen zwischen Chinesisch und anderen Sprachen wie Englisch, Französisch, Russisch usw., literarisches Chinesisch und modernes Chinesisch verwenden den gleichen Zeichensatz. Unter Ausnutzung dieser Funktion haben Forscher von Microsoft Research Asia innovative Algorithmen verwendet, um es der maschinellen Übersetzung zu ermöglichen, sich an gängige Zeichen zu erinnern, eine natürliche Ausrichtung durchzuführen und dann auf Wörter, Phrasen und kurze Sätze auszudehnen, wodurch eine große Menge an verwendbaren Daten synthetisiert wird.  

Zweitens, verformen Sie die Satzstruktur, um die Robustheit der maschinellen Übersetzung zu verbessern. In Bezug auf Brüche in Texten und Gedichten, Forscher haben eine Reihe von Varianten hinzugefügt, um Maschinen beim Erlernen alter Gedichte umfassender zu machen. Selbst wenn Menschen einen Satz sehen, der abnormal strukturiert ist, z. B. ein Gedicht, das in Linien segmentiert ist, die auf Rhythmus und nicht auf ganzen Sätzen basieren, können sie die Teile immer noch zusammensetzen und verstehen. Aber für ein Übersetzungsmodell, das noch nie zuvor eine solche Segmentierung gesehen hat, wird es wahrscheinlich verwirrt sein. Daher kann die Transformation des Datenformats nicht nur die Menge der Trainingsdaten erweitern, sondern auch die Robustheit des Übersetzungsmodelltrainings verbessern.  

Drittens sollten Sie traditionelle und vereinfachte Zeichenübersetzungsschulungen durchführen, um die Anpassungsfähigkeit des Modells zu erhöhen. Im Chinesischen existieren traditionelle Schriftzeichen sowohl im literarischen als auch im modernen Chinesisch. Als die Forscher das Modell trainierten, um die Anpassungsfähigkeit des Modells zu verbessern, nutzten sie nicht nur Daten in vereinfachtem Chinesisch, sondern fügten auch Daten in traditionellem Chinesisch sowie Daten hinzu, die mit traditionellen und vereinfachten Zeichen gemischt wurden. So kann das Modell sowohl die traditionellen als auch die vereinfachten Inhalte verstehen, was zu genaueren Übersetzungsergebnissen führt.   

Viertens, das Training von fremdsprachigen Wörtern zu erhöhen, um die Genauigkeit der Übersetzung zu verbessern. Bei der Übersetzung des modernen Chinesisch ins literarische Chinesisch gibt es oft moderne Wörter, die von fremdsprachigen Wörtern abgeleitet sind, und neue Wörter, die im alten Chinesisch nie erschienen sind, wie "Microsoft", "Computer", "Hochgeschwindigkeitsbahn" und viele andere. Um mit diesem Problem umzugehen, trainierten die Forscher ein kleines Modell, um Entitäten zu erkennen. Das Modell übersetzte zuerst die Bedeutung des Wortes außerhalb der Entität und füllte die Entität dann wieder ein, um die Genauigkeit der Maschine sicherzustellen's Verarbeitung der Fremdwörter.    

Bild: TEr literarisches Chinesisch Übersetzungsprozess

Darüber hinaus wurde das maschinelle Übersetzungsmodell für informelle Schreibstile wie Blogs, Foren, Weibo usw. speziell entwickelt, um die Robustheit der Übersetzung zwischen modernem und literarischem Chinesisch weiter zu verbessern.  

Dongdong Zhang erklärte: "Basierend auf dem aktuellen Übersetzungssystem werden wir den Datensatz weiter anreichern und die Modelltrainingsmethode verbessern, um sie robuster und vielseitiger zu machen. In Zukunft könnte die Methode nicht nur für literarische chinesische Übersetzungen verwendet werden, sondern auch auf andere Anwendungsszenarien erweitert werden."