微软翻译博客

可自定义的语音转录、翻译和合成现在在统一语音服务中可用

将语音集成到您的应用程序、工作流和使用统一语音服务的网站上, 本周宣布在 Microsoft 构建.语音将现有的转换器语音 api、Bing 语音 api 和自定义语音服务 (预览) 的功能组合为统一和完全可自定义的服务。

现在, 您可以使用相同的订阅将语音用于文本、语音转换和文本到语音服务。所有三服务都可以使用预览的新的自定义语音、翻译和语音功能, 本周也宣布在//建设:

语音到文本 (语音转录) –将语音音频转换为默认或自定义模型, 以适应特定词汇或用户的说话风格 (语言模型自定义), 或更好地匹配预期的环境, 如背景噪声 (声学模型定制)。语音到文本技术支持多种用例, 如语音命令、实时抄写和呼叫中心日志分析。
文本到语音 (语音合成) –将语音转换为任何应用程序, 在接近实时的情况下, 通过选择超过75个默认声音, 或使用新的自定义语音模型, 创建一个独特的和可识别的品牌语音调谐到您自己的录音。
语音翻译-提供基于神经机器翻译 (NMT) 技术的模型的实时语音翻译功能。现在可以自定义语音转换管线的三个元素: 语音识别、文本到语音和机器翻译。

神经翻译与翻译文本 API 的最新版本 (版本 3), 还可以使用使用新的转换器自定义功能生成的自定义系统。

统一语音服务目前作为预览提供。对于需要提供一般可用性服务的语音转换, 开发人员应继续使用 Microsoft 翻译器语音 API。请跟随微软翻译博客和 Twitter 页, 以继续, 最新的微软翻译服务公告。

了解更多关于认知服务博客.