Microsoft Translator rilascia la traduzione letteraria cinese

Pubblicato il 25 agosto 202130 agosto 2021di Microsoft Translator

Durante la lettura antico Cinese poesia, spesso ci meravigliamo delle parole meravigliose che gli antichi scrittori potrebbero usare per descrivere persone, eventi, oggetti e scene. Si tratta di uno splendido tesoro culturale che ci è stato lasciato alle spalle. Tuttavia, simile a Shakespeare's versi in lingua inglese, il cinese letterario usato da questi poeti è spesso difficile da capire per le persone moderne, e i significati e le sottigliezze incorporati al suo interno sono spesso persi.

Per risolvere questo problema, i ricercatori di Microsoft Research Asia hanno adottato le più recenti tecniche di traduzione automatica neurale per addestrare modelli di traduzione diretta tra cinese letterario e cinese moderno, il che si traduce anche nella creazione di capacità di traduzione tra cinese letterario e più di 90 altre lingue e dialetti in Microsoft Translator. Attualmente, la traduzione letteraria cinese è stata integrata Microsoft Translator app, Traduttore servizi cognitivi di AzureAzure Cognitive Services Translatore una serie di prodotti Microsoft supportati dai servizi Microsoft Translator.

Immagine: Il dipinto da "West Mountain in Misty Rain" di Shen Zhou, dinastia Ming. L'antico poema cinese sul dipinto è di Yong Liu, dinastia Song settentrionale. Il poema raffigura lo scenario primaverile nel sud della Cina durante il Festival di Qingming e la prosperità della vita sociale.

Consentire a più persone di apprezzare il fascino della cultura tradizionale cinese

Il cinese letterario è un importante vettore della cultura tradizionale cinese. Voluminosi libri e testi dei tempi antichi hanno registrato la Cina'cultura ricca e profonda negli ultimi cinquemila anni. I pensieri e la saggezza accumulati e contenuti in essi sono degni di continua esplorazione e pensiero.

Con l'aiuto della traduzione automatica, i turisti possono ora comprendere antichi testi e poesie cinesi scritti su edifici e monumenti storici, gli studenti ora hanno uno strumento in più per aiutarli a imparare il cinese e i ricercatori che sono impegnati nella raccolta e traduzione di testi antichi possono essere più produttivi.

Dongdong Zhang, ricercatore principale di Microsoft Research Asia, ha dichiarato: "Da un punto di vista tecnico, il cinese letterario può essere considerato una lingua separata. Una volta realizzata la traduzione tra cinese letterario e cinese moderno, la traduzione tra il cinese letterario e altre lingue come l'inglese, il francese e il tedesco diventa una cosa ovvia.

La più grande difficoltà del modello di IA di traduzione cinese letteraria: pochi dati di formazione

L'elemento più critico del training del modello di intelligenza artificiale sono i dati. Solo quando il volume di dati è abbastanza grande e la sua qualità abbastanza alta potere tu addestrare un modello più accurato. Nella traduzione automatica, il training del modello richiede dati bilingui: dati di testo originali e dati della lingua di destinazione. La traduzione del cinese letterario è molto speciale, come è'non è un linguaggio usato nella vita quotidiana. Pertanto, rispetto alla traduzione di altre lingue, i dati di formazione della traduzione letteraria cinese sono molto piccoli, il che non favorisce la formazione di modelli di traduzione automatica.

Sebbene i ricercatori di Microsoft Research Asia raccolse molti dati cinesi letterari e moderni disponibili al pubblico nelle prime fasi, i dati originali non possono essere utilizzati direttamente. La pulizia dei dati deve essere effettuata per normalizzare i dati provenienti da fonti diverse, vari formati, nonchépunteggiature a mezza larghezza, come mezzo per ridurre al minimo l'interferenza di dati non validi nel training del modello. In questo modo, i dati di alta qualità disponibili effettivi vengono ulteriormente ridotti.

Secondo Shuming Ma, un ricercatore di Microsoft Research Asia, al fine di ridurre il problema della scarsità di dati, i ricercatori hanno condotto una grande quantità di sintesi dei dati e lavoro di aumento, tra cui:

In primo luogo, carattere comune– allineamento ed espansione basati sull'espansione per aumentare le dimensioni dei dati di training. Diverso da le traduzioni tra cinese e altre lingue come inglese, francese, russo, ecc., Cinese letterario e cinese moderno utilizzano lo stesso set di caratteri. Sfruttando questa funzionalità, i ricercatori di Microsoft Research Asia hanno utilizzato algoritmi innovativi per consentire la traduzione automatica per richiamare caratteri comuni, condurre un allineamento naturale e quindi espandersi ulteriormente a parole, frasi e frasi brevi, sintetizzare così una grande quantità di dati utilizzabili.

In secondo luogo, deformare la struttura delle frasi per migliorare la robustezza della traduzione automatica. A proposito di interruzioni nei testi e nelle poesie, i ricercatori hanno aggiunto una serie di varianti per rendere le macchine più complete nell'apprendimento di poesie antiche. Per le persone, anche quando vedono una frase strutturata in modo anomalo, come una poesia segmentata in linee basate sul ritmo piuttosto che su frasi complete, possono comunque mettere insieme le parti e capirla. Ma per un modello di traduzione che non ha mai visto una tale segmentazione prima, sarà probabilmente confuso. Pertanto, la trasformazione del formato dati può non solo espandere la quantità di dati di training, ma anche migliorare la robustezza del training del modello di traduzione.

In terzo luogo, condurre una formazione tradizionale e semplificata sulla traduzione dei caratteri per aumentare l'adattabilità del modello. In cinese, i caratteri tradizionali esistono sia nel cinese letterario che in quello moderno. Quando i ricercatori hanno addestrato il modello, al fine di migliorare l'adattabilità del modello, non solo hanno sfruttato i dati in cinese semplificato, ma hanno anche aggiunto dati nel cinese tradizionale, così come dati mescolati con caratteri tradizionali e semplificati. Pertanto, il modello può comprendere sia i contenuti tradizionali che quelli semplificati, il che porta a risultati di traduzione più accurati.

Quarto, aumentare la formazione di parole in lingua straniera per migliorare l'accuratezza della traduzione. Quando si traduce il cinese moderno in cinese letterario, ci sono spesso parole moderne derivate da parole in lingua straniera e nuove parole che non sono mai apparse nel cinese antico, come "Microsoft", "computer", "ferrovia ad alta velocità" e molte altre simili. Per affrontare questo problema, i ricercatori hanno addestrato un piccolo modello per riconoscere le entità. Il modello ha prima tradotto il significato della parola al di fuori dell'entità, quindi ha riempito nuovamente l'entità per garantire l'accuratezza della macchina'elaborazione delle parole straniere.

Immagine: Tha cinese letterario processo di traduzione

Inoltre, per stili di scrittura informali come blog, forum, Weibo e così via, il modello di traduzione automatica è stato addestrato specificamente per migliorare ulteriormente la robustezza della traduzione tra cinese moderno e letterario.

Dongdong Zhang ha dichiarato: "Sulla base dell'attuale sistema di traduzione, continueremo ad arricchire il set di dati e a migliorare il metodo di training del modello per renderlo più robusto e versatile. In futuro, il metodo potrebbe non solo essere utilizzato per la traduzione letteraria cinese, ma può anche essere esteso ad altri scenari applicativi.

Blog di Microsoft Translator