Microsoft Translator prinaša prevajanje govora od konca do konca vsem, ki imajo na svetu prvi API za prevajanje govora

Objavljeno dne 30. marec 2016z Microsoft Translator

Danes smo izdali novo različico Microsoftov API za prevajanje , ki dodaja zmogljivosti prevajanja v realnem času (in govor v besedilo) v obstoječi API za prevajanje besedil. Ta zmožnost je bila na voljo milijonom uporabnikov, ki jih poganja Microsoftova najsodobnejše tehnologije umetne inteligence. Skype za več kot leto dni, in iOS In Android uporabnikov Microsoft Translator apps od konca leta 2015. Podjetja bodo lahko v svoje aplikacije ali storitve dodala te zmožnosti prevajanja govora in svojim strankam in osebju nudile bolj naravne in učinkovite uporabniške izkušnje.

Prevajanje govora je na voljo za osem jezikov – arabščina, Kitajski mandarinščina, angleščina, francoščina, nemščina, italijanščina, portugalščina in španščina. Prevajanje v besedilo je na voljo v vseh Microsoftovih prevajalskih 50 + podprti jeziki. Prevajanje govornega zvoka je na voljo v 18 podprtih jezikih.

To nov prevod od mikroskop prevajalec je prvi prenehati-v-prenehati prevod pregovor raztopina biti optimističen zakaj realen-življenje pogajanja (vs. prepost človeški v stroj zapoved) pri roki na trgu. Pred danes so rešitve za prevajanje govora, ki jih je treba združiti iz številnih različnih API-jev (prepoznavanje govora, prevajanje in sinteza govora), niso bile optimizirane za pogovorni govor ali načrtovane za delo med seboj. Zdaj lahko končni uporabniki in podjetja enako odstranijo jezikovne ovire z integracijo prevajanja govora v svoje znane aplikacije in storitve.

Kako lahko moje podjetje uporablja tehnologijo prevajanja govora?

Prevajanje govora se lahko uporablja v različnih scenarijih oseba-oseba, skupina ali človek-stroj. Scenariji osebe v osebi lahko vključujejo enosmerni prevod, kot so osebni prevodi, podnaslavljanje ali oddaljeni ali v osebi večjezična komunikacija, podobna tistim, ki jih trenutno najdemo v prevajalniku Skype ali aplikacijah Microsoft Translator za iOS in Android. Skupinski scenariji lahko vključujejo predstavitve v realnem času, kot so keynotes dogodkov, spletne oddaje in univerzitetni razredi, ali srečanja, kot na primer v-oseba srečanja ali online gaming klepetalnice. Scenariji med človekom in strojem lahko vključujejo scenarije poslovnega obveščanja (na primer dnevnike analiz ali klicev strank) ali interakcije AI.

Mi smo šele začenja praskati površino scenarijev, kjer bo ta tehnologija pomagala in, saj je strojno učenje temelji, njena kakovost in zato uporabnost bo izboljšala s časom, kot več ljudi in podjetij, ki jih uporabljajo.

Več partnerskih podjetij je preizkusil API in ga integriiralo v svoje aplikacije:

Tele 2 Švedske, vodilni mobilni operater z več kot 15.000.000 naročnikov v več kot 15 državah, integrirano prevajalec v svoje PBX za podporo v realnem času telefonske klice prevodov (ni potrebno app!) na svojem mobilnem omrežju.
Na mostu (Boston, MA), ponudnik jezikovnih storitev in Gold Level prevajalec partner, razvil integrirano video podnaslavljanje rešitev.
Zdravilo ProDeaf, prodajalec aplikacij, specializirano za razvoj tehnologij za podporo Hard-of-sluha in gluhe skupnosti, integrirano novo API v svoj znakovni jezik avatar app, da se omogoči večjezično podporo govora za podpis scenarijev.

Kako deluje prevajanje govora?

Prevajanje govora v govor je zelo zapleten izziv. Uporablja najnovejše AI tehnologije, kot so globoka nevronske mreže za prepoznavanje govora in prevajanje besedil. Ni druge popolnoma integrirano rešitev za prevajanje govora na voljo na trgu danes in dali platformo, ki bi podprla v realnem življenju scenarijev prevajanje govora, ki presegajo samo šivanje skupaj obstoječe prepoznavanje govora in tehnologije prevajanja besedil. Obstajajo štiri stopnje za prevajanje govora, da lahko poda to izkušnjo:

Samodejno prepoznavanje govora (ASR) – Globoko nevronske mreže usposobljeni na tisoče ur audio analizira dohodni govor. Ta model je usposobljen za interakcije med človekom in človekom in ne z ukazi človeka-stroj, ki proizvajajo prepoznavanje govora, ki je optimizirana za običajne pogovore.
VeljaBesedilo Microsoft Research inovacije, TrueText vzame dobesedno besedilo in ga pretvori v bolj natančno odražajo namen uporabnika. To dosega z odstranitvijo govora disfluencies, kot so "um" s in "ah" s, kot tudi jecljanje in ponovitev. Besedilo je tudi bolj berljivo in prenosljiv z dodajanjem stavkov odmori, pravilno ločila, in kapitalizacija. (glej sliko spodaj)
Prevod Besedilo je prevedeno v katero koli od 50 + jezikov, ki jih podpira Microsoft Translator. Osem govornih jezikov so bili dodatno optimizirani za pogovore z usposabljanjem na milijone besed pogovornih podatkov z uporabo globokih nevronskih mrež powered jezikovnih modelov.
Besedilo v govor- Če je ciljni jezik eden od osemnajstih podprtih jezikov govora, se besedilo pretvori v izhod govora z uporabo sinteze govora. Ta faza je izpuščena v scenarijih prevajanja govora v besedilo, kot je video podnaslavljanje.

Kako začnem?

To je enostavno začeti z novim Microsoft Translator Speech API. Brezplačno 10-urni poskus je na voljo na aka.ms/TranslatorADMSpeech. Lahko preizkusite nastavitev in izvajanje v virtualnem okolju, kot tudi prebrati dokumentacijo API na naši novi Swagger stran. Najdete lahko tudi primer aplikacij in drugih koristnih informacij o Github.

Seveda, če imate vprašanja, vprašanja, ali povratne informacije, bi radi slišali! Lahko nam sporočite povratne informacije in forum za podporo.

Preberite Več

Microsoftov prevajalec blog

Kako lahko moje podjetje uporablja tehnologijo prevajanja govora?

Kako deluje prevajanje govora?

Kako začnem?