Překladač Microsoft Translator spojuje všechny koncové překlady řeči s prvním světovým rozhraním API pro překlad řeči

Zveřejněno dne 30. března 2016vedle Microsoft Translator

Dnes jsme vydali novou verzi Microsoft Translator API , který přidává překladové schopnosti rozpoznávání řeči a mluvené řeči v reálném čase do existujícího rozhraní API pro převod textu. Tato schopnost byla poháněna nejmodernskými technologiemi umělé inteligence společnosti Microsoft a byla k dispozici milionům uživatelů Skype více než rok a iOS A Android Uživatelé aplikací Microsoft Translator od konce 2015. Nyní budou moci podniky přidat tyto možnosti překladu řeči do svých aplikací nebo služeb a nabídnout svým zákazníkům a pracovníkům více přirozeného a účinného uživatelského prostředí.

Překlad řeči je k dispozici pro osm jazyků: Arabština, Čínské mandarínské, anglické, francouzské, německé, italské, portugalské a španělské. Překlad do textu je k dispozici ve všech aplikacích Microsoft Translator 50 + podporované jazyky. Překlad do mluvených zvuků je k dispozici v 18 podporovaných jazycích.

Tato nová verze překladače Microsoft je první řešení pro překlady řeči, které je optimalizováno pro všechny rozhovory v reálném životě (s jednoduchými příkazy pro člověka a stroje), které jsou k dispozici na trhu. Před dneškem nebyly řešení pro překlady řeči, které je třeba, aby se spojily z řady různých rozhraní API (rozpoznávání řeči, překlad a syntéza řeči), nebyly optimalizovány pro konverzační řeč nebo navrženy tak, aby vzájemně spolupracovaly. Nyní mohou koncoví uživatelé a podniky odstranit jazykové bariéry integrací překladu řeči do svých známých aplikací a služeb.

Jak může můj podnik používat technologii překladu řeči?

Překlad řeči lze použít v různých scénářích typu osoba-osoba, skupina nebo člověk-počítač. Scénáře typu osoba-osoba mohou zahrnovat jednosměrný překlad, jako je osobní překlady, titulkování nebo vzdálená nebo osobní vícejazyčné komunikace podobné těm, které jsou aktuálně nalezeny v překladači Skype nebo Microsoft Translator v aplikacích iOS a Android. Skupinové scénáře by mohly zahrnovat prezentace v reálném čase, jako jsou například klíčové poznámky událostí, Webová vysílání a univerzitní třídy nebo setkání jako v případě setkání osob nebo online herních místností. Scénáře mezi člověkem a strojem by mohly zahrnovat scénáře obchodní logiky (jako jsou například protokoly o analýze nebo zákaznická volání) nebo interakce AI.

Právě začínáme poškrábat povrch scénářů, ve kterých tato technologie pomůže, a jak se na základě strojového učení zakládá, její kvalita, a tudíž použitelnost se časem zlepší, jak jej využívá více lidí a společností.

Několik partnerských společností testovala rozhraní API a začlenily je do svých aplikací:

Tele 2 Švédska, předního mobilního operátora, který má více než 15 000 000 předplatitelů ve více než patnácti zemích, integrovaný Překladatel do pobočkové ústředny, aby podporoval překlady telefonních hovorů v reálném čase (není nutná aplikace!) na své buněčné síti.
Most (Boston, MA), poskytovatel jazykových služeb a partner pro překlad zlatých úrovní, vyvinul integrované řešení Titulkování videa.
ProDeaf, dodavatel aplikace, který se specializuje na vývoj technologií pro podporu sluchových a hluchých komunit, integrování nového rozhraní API do své aplikace avatarů, které umožňuje vícejazyčné podpory řeči při podepisování scénářů.

Jak funguje překlad řeči?

Překlad řeči na řeč je velmi složitý úkol. Používá nejnovější technologie AI, jako jsou například hluboké neuronové sítě pro rozpoznávání řeči a textový překlad. Na dnešním trhu není k dispozici žádné jiné plně integrované řešení pro překlady řeči, které by dodávala platformu, která by podporovala scénáře překladů v reálném životě, které jsou nutné pro to, aby bylo možné jednoduše sešití stávající rozpoznávání řeči a technologie překladu textu. Existují čtyři etapy překladu řeči, aby bylo možné tyto zkušenosti doručit:

Automatické rozpoznávání řeči (ASR)- Hluboká neuronová síť vyškolená na tisíce hodin audio analyzuje příchozí řeč. Tento model je trénoval na interakci mezi člověkem a lidmi, nikoli s příkazy od člověka k počítači, což vytváří rozpoznávání řeči, které je optimalizováno pro normální konverzaci.
PravdivýText Inovace Microsoft Research, TrueText přebírá doslovný text a transformuje jej tak, aby přesněji odrážel uživatelský záměr. Dosahuje toho tím, že odstraňuje odtoky řeči, například "um" a "Ah", stejně jako stutetry a opakování. Text je také srozumitelnější a přeložitelný přidáním konců vět, správných interpunkčních znamének a velkých písmen. (viz obrázek níže)
Překlad Text je přeložen do kteréhokoli z 50 jazyků podporovaných aplikací Microsoft Translator. Osm jazyků mluveného projevu bylo dále optimalizováno pro rozhovory prostřednictvím školení o miliónech slov konverzačních dat s využitím jazykových modelů v hlubinných nervových sítích.
Text na řeč – Pokud je cílovým jazykem jeden z osmnáct podporovaných jazyků řeči, převede se text na výstup řeči pomocí syntézy řeči. Tato fáze je vynechána ve scénářích překladu řeči-text, jako je například Titulkování videa.

Jak začít?

Je snadné začít s novým rozhraním Microsoft překladač řeči. Bezplatná 10hodinová zkušební verze je k dispozici na adrese aka.ms/TranslatorADMSpeech. Můžete otestovat nastavení a implementaci ve virtuálním prostředí a také si přečíst dokumentaci rozhraní API na naší nové Stránka Swagger. Můžete také najít ukázkové aplikace a další užitečné informace o Github.

Samozřejmě, pokud máte otázky, problémy nebo zpětnou vazbu, rádi to uslyšíme! Můžete nám říct o naší Fórum o zpětné vazbě a odborné pomoci.

Dozvědět Se Více

Blog aplikace Microsoft Translator

Jak může můj podnik používat technologii překladu řeči?

Jak funguje překlad řeči?

Jak začít?