Microsoft Translator offentlig utgivelser taleoversettelse Corpus
Christian Federmann, senior program manager |
Som en del av en pågående innsats i Microsoft for å forbedre nøyaktigheten av systemer for kunstig intelligens (AI), utgir Microsoft Translator offentlig et sett med data som inkluderer flere samtaler mellom tospråklige høyttalere som snakker fransk, Tysk og engelsk.
Dette Corpus, som ble produsert av Microsoft ved hjelp av tospråklige høyttalere, har som mål å skape en standard som folk kan måle hvor godt deres conversational taleoversettelse systemer arbeid. Det kan tjene som et standardisert datasett for testing tospråklig conversational taleoversettelse systemer som Microsoft Translator live-funksjon Og Skype oversetter.
Christian Federmann, en senior program manager som arbeider med Microsoft Translator team, sa det er ikke så mange standardiserte datasett for testing tospråklig conversational taleoversettelse systemer. "Du trenger høykvalitets data for å få høy kvalitet testing," Federmann sa.
Microsoft-teamet håper Corpus, som er fritt tilgjengelig, vil dra nytte hele feltet conversational oversettelse og bidra til å skape mer standardiserte benchmarks at forskerne kan bruke til å måle sitt arbeid mot andre.
Dette bidrar til å drive feltet fremover, sier Vil Lewis, en rektor for teknisk program med Microsoft Translator-teamet som også arbeidet med prosjektet.
Last ned Microsoft talespråk oversettelse Corpus her.
Lær mer om denne versjonen og andre måter Microsoft arbeider for å gjøre AI smartere og mer nøyaktig i Microsoft forskning blogg.
få mer informasjon