Passa a contenuti principali
Translator
Questa pagina è stata tradotta automaticamente dal servizio di traduzione automatica di Microsoft Translator. Ulteriori informazioni

Blog di Microsoft Translator

Microsoft Translator porta la traduzione vocale end-to-end a tutti con la prima API di traduzione vocale al mondo

Oggi abbiamo pubblicato una nuova versione di Microsoft Translator API che aggiunge funzionalità di traduzione vocale in tempo reale (e discorso al testo) all'API di traduzione testuale esistente. Alimentato dalle tecnologie di intelligenza artificiale di Microsoft all'avanguardia, questa funzionalità è stata disponibile per milioni di utenti di Skype per oltre un anno, e per iOS e Android utenti delle app Microsoft Translator dalla fine del 2015. Ora, le aziende saranno in grado di aggiungere queste funzionalità di traduzione vocale per le loro applicazioni o servizi e offrire esperienze utente più naturali ed efficaci per i loro clienti e il personale.

La traduzione vocale è disponibile per otto lingue: Arabo, Cinese mandarino, inglese, francese, tedesco, italiano, portoghese e spagnolo. La traduzione in testo è disponibile in tutti i oltre 50 lingue supportate. La traduzione in audio parlato è disponibile in 18 lingue supportate.

Questa nuova versione di Microsoft Translator è la prima soluzione di traduzione vocale end-to-end ottimizzata per conversazioni reali (vs. semplici comandi da uomo a macchina) disponibili sul mercato. Prima di oggi, le soluzioni di traduzione vocale dovevano essere pavimentate insieme da diverse API (riconoscimento vocale, traduzione e sintesi vocale), non erano ottimizzate per il linguaggio conversazionale o progettate per funzionare tra loro. Ora, gli utenti finali e le aziende possono rimuovere le barriere linguistiche con l'integrazione della traduzione vocale nelle loro applicazioni e servizi familiari.

 

Come può la mia azienda utilizzare la tecnologia di traduzione vocale?

La traduzione vocale può essere utilizzata in una varietà di scenari da persona a persona, da gruppo o da uomo a macchina. Gli scenari da persona a persona possono includere la traduzione unidirezionale, ad esempio la traduzione personale, la sottotitolazione o le comunicazioni multilinee remote o di persona, simili a quelle attualmente disponibili in Skype Translator o nelle app Microsoft Translator per iOS e Android. Gli scenari di gruppo potrebbero includere presentazioni in tempo reale, come note chiave di evento, webcast e classi universitarie, o riunioni come riunioni in persona o chatroom di giochi online. Gli scenari da uomo a macchina potrebbero includere scenari di Business Intelligence (ad esempio i registri delle chiamate di analisi o dei clienti) o interazioni di intelligenza artificiale.

Stiamo appena iniziando a grattare la superficie degli scenari in cui questa tecnologia aiuterà e, come è basato sull'apprendimento automatico, la sua qualità e quindi l'applicabilità migliorerà con il tempo come più persone e aziende lo utilizzano.

Diverse aziende partner hanno testato l'API e l'hanno integrata nelle proprie app:

  • Tele 2 di Svezia, un operatore di telefonia mobile leader con più di 15 milioni abbonati in oltre 15 paesi, integrato Translator nel loro PBX per supportare le traduzioni telefoniche in tempo reale (nessuna app necessaria!) sulla loro rete cellulare.
  • Lionbridge (Boston, MA), un fornitore di servizi linguistici e partner Gold Level Translator, ha sviluppato una soluzione di sottotitolazione video integrata.
  • Prodeaf tradutor, un fornitore di applicazioni specializzata nello sviluppo di tecnologie per supportare le comunità di hard-of-Hearing e sordi, integrato la nuova API nella loro app avatar di linguaggio dei segni per consentire il supporto multilingue di Speech per firmare gli scenari.

 

Come funziona la traduzione vocale?

La traduzione vocale è una sfida molto complessa. Utilizza le più recenti tecnologie di intelligenza artificiale, come le reti neurali profonde per il riconoscimento vocale e la traduzione testuale. Non esiste un'altra soluzione di traduzione vocale completamente integrata oggi disponibile sul mercato e la realizzazione di una piattaforma che supporti gli scenari di traduzione vocale reali richiesti andando oltre la semplice cucitura insieme del riconoscimento vocale esistente e tecnologie di traduzione testuale. Ci sono quattro fasi di traduzione vocale per essere in grado di fornire questa esperienza:

  1. Riconoscimento vocale automatico (ASR) — Una rete neurale profonda addestrata su migliaia di ore di audio analizza il parlato in entrata. Questo modello è addestrato su interazioni uomo-uomo piuttosto che su comandi da uomo a macchina, producendo un riconoscimento vocale ottimizzato per le conversazioni normali.
  2. TrueText Un'innovazione di Microsoft Research, TrueText prende il testo letterale e lo trasforma per riflettere più da vicino l'intento dell'utente. Questo lo ottiene rimuovendo le disfluenze vocali, come "um" e "Ah", così come gli balbetta e le ripetizioni. Il testo è reso anche più leggibile e traducibile aggiungendo pause di frase, una punteggiatura e una capitalizzazione corrette. (Vedi figura sotto)
  3. Traduzione Il testo viene tradotto in una qualsiasi delle 50 lingue supportate da Microsoft Translator. Le otto lingue vocali sono state ulteriormente ottimizzate per le conversazioni mediante la formazione su milioni di parole di dati conversazionali utilizzando modelli linguistici alimentati con reti neurali profonde.
  4. Testo in sintesi: Se la lingua di destinazione è una delle diciotto lingue vocali supportate, il testo viene convertito in output vocale utilizzando la sintesi vocale. Questa fase viene omessa negli scenari di traduzione da voce a testo, ad esempio Sottotitolazione video.

Come posso iniziare?

È facile iniziare con la nuova API Microsoft Translator Speech. Una prova gratuita di 10 ore è disponibile presso aka.ms/TranslatorADMSpeech. È possibile testare l'installazione e l'implementazione in un ambiente virtuale e leggere la documentazione API sul nuovo Pagina di Swagger. È inoltre possibile trovare applicazioni di esempio e altre informazioni utili su Github.

Naturalmente, se hai domande, problemi o feedback, ci piacerebbe ascoltarlo! Potete farci sapere sul nostro feedback e forum di supporto.

Ulteriori informazioni