{"id":1045248,"date":"2024-06-25T17:56:09","date_gmt":"2024-06-26T00:56:09","guid":{"rendered":"https:\/\/www.microsoft.com\/en-us\/research\/?post_type=msr-project&#038;p=1045248"},"modified":"2024-08-06T14:11:26","modified_gmt":"2024-08-06T21:11:26","slug":"e2-tts","status":"publish","type":"msr-project","link":"https:\/\/www.microsoft.com\/en-us\/research\/project\/e2-tts\/","title":{"rendered":"E2 TTS"},"content":{"rendered":"<section class=\"mb-3 moray-highlight\">\n\t<div class=\"card-img-overlay mx-lg-0\">\n\t\t<div class=\"card-background  has-background-catalina-blue card-background--full-bleed\">\n\t\t\t\t\t<\/div>\n\t\t<!-- Foreground -->\n\t\t<div class=\"card-foreground d-flex mt-md-n5 my-lg-5 px-g px-lg-0\">\n\t\t\t<!-- Container -->\n\t\t\t<div class=\"container d-flex mt-md-n5 my-lg-5 \">\n\t\t\t\t<!-- Card wrapper -->\n\t\t\t\t<div class=\"w-100 w-lg-col-5\">\n\t\t\t\t\t<!-- Card -->\n\t\t\t\t\t<div class=\"card material-md-card py-5 px-md-5\">\n\t\t\t\t\t\t<div class=\"card-body \">\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\n<h1 class=\"wp-block-heading\" id=\"e2-tts\">E2 TTS<\/h1>\n\n\n\n<p>Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS<\/p>\n\n\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t<\/div>\n\t\t<\/div>\n\t<\/div>\n<\/section>\n\n\n\n\n\n<p><strong>E2 TTS (Embarrassingly Easy TTS)<\/strong> is a fully non-autoregressive zero-shot text-to-speech (TTS) system capable of generating the voice of any speaker. Despite its <strong>extremely simple <\/strong>model architecture and training scheme, E2 TTS achieves <strong>human-level naturalness, and state-of-the-art speaker similarity and intelligibility<\/strong>.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button\"><a data-bi-type=\"button\" class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/arxiv.org\/abs\/2406.18009\" target=\"_blank\" rel=\"noreferrer noopener\">Read the paper<\/a><\/div>\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center is-style-default\" id=\"state-of-the-art-zero-shot-tts-with-extremely-simple-architecture\">State-of-the-art zero-shot TTS with simple architecture<\/h2>\n\n\n\n<p>E2 TTS consists of only two modules: the flow-matching Transformer and the vocoder. The input is a sequence of characters with filler tokens. It does not include any additional components such as a duration model or a grapheme-to-phoneme converter, nor does it use complex techniques like monotonic alignment search or cross-attention in a specific architecture.<\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-3 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-vertically-aligned-center is-layout-flow wp-block-column-is-layout-flow\" style=\"flex-basis:66.66%\">\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"2830\" height=\"1135\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a.png\" alt=\"E2 TTS System Overview\" class=\"wp-image-1065651\" style=\"width:852px;height:auto\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a.png 2830w, https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a-300x120.png 300w, https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a-1024x411.png 1024w, https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a-768x308.png 768w, https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a-1536x616.png 1536w, https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a-2048x821.png 2048w, https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/08\/e2_tts-66b2915bd685a-240x96.png 240w\" sizes=\"(max-width: 2830px) 100vw, 2830px\" \/><\/figure>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-vertically-aligned-center is-style-default is-layout-flow wp-block-column-is-layout-flow\" style=\"flex-basis:33.33%\">\n<p><strong>E2 TTS is a zero-shot TTS system that can generate a voice of any speaker using a short audio sample (a.k.a. an audio prompt).<\/strong><\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-1 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">Audio prompt<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000023.wav\"><\/audio>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">Generated speech<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000023.wav\"><\/audio>\n<\/div>\n<\/div>\n<\/div>\n\n\n\n<p><strong>E2 TTS has achieved human-level naturalness, and state-of-the-art speaker similarity and intelligibility that are comparable to or surpass previous models.<\/strong><\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-2 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">Generated speech by Voicebox (prior work)<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_01_neutral_0.wav\"><\/audio>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">Generated speech by E2 TTS (our work)<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_01_neutral_0.wav\"><\/audio>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center is-style-default\" id=\"superior-flexibility-and-controllability\">Superior flexibility and controllability<\/h2>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-7 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\"><strong>E2 TTS can generate natural emotional speech<\/strong><\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-4 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">Happy<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_03_happy_0.wav\"><\/audio>\n<\/div>\n\n\n\n<p class=\"has-text-align-center\">Angry<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_05_angry_0.wav\"><\/audio>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">Sad<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_04_sad_0.wav\"><\/audio>\n<\/div>\n\n\n\n<p class=\"has-text-align-center\">Disgust<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_07_disgust_0.wav\"><\/audio>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\"><strong>E2 TTS can change the speed of speech <\/strong><\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-5 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">0.7x<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_0.7x_rate.wav\"><\/audio>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">1.0x<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_1.0x_rate.wav\"><\/audio>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">1.3x<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_1.3x_rate.wav\"><\/audio>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\"><strong>E2 TTS can explicitly specify the pronunciation of the word<\/strong><\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-6 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">During our dinner, we enjoyed a bottle of <strong>sake<\/strong>, which complemented our <strong>sushi<\/strong> perfectly.<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s2_01_wrong_0.wav\"><\/audio>\n<\/div>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\">\n<p class=\"has-text-align-center\">During our dinner, we enjoyed a bottle of <strong>(S AA1 K EH0)<\/strong>, which complemented our <strong>(S UW1 SH IY0)<\/strong> perfectly.<\/p>\n\n\n\n<div style=\"text-align: center\">\n<audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s2_02_correct_0.wav\"><\/audio>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center is-style-default\" id=\"audio-samples\">Audio samples<\/h2>\n\n\n\n<p>Below, we included audio samples demonstrating how E2 TTS performs. The speech samples were taken from LibriSpeech-PC test-clean and RAVDESS dataset. The speech samples below are provided for the sole purpose of illustrating E2 TTS.<\/p>\n\n\n\n<h3 class=\"wp-block-heading is-style-l\" id=\"librispeech-pc\">LibriSpeech-PC<\/h3>\n\n\n\n<p>All samples in this section are generated using audio prompts and text prompts from the LibriSpeech-PC test-clean set.<\/p>\n\n\n\n<div style=\"width: 100%;margin: 0 auto\">\n\n    <div style=\"margin-bottom: 50px\">\n        <div style=\"background-color: #E6E6FA;padding: 20px;border-radius: 5px;max-width: 100%;margin: 20px auto\">\n            <table style=\"width: 100%;border-collapse: collapse;border: none\">\n                <thead>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Audio prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Text prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Ground truth<\/th>\n                    <th style=\"text-align: center;padding: 8px\" colspan=\"6\">Generated audio<\/th>\n                <\/tr>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\">VALL-E<\/th>\n                    <th style=\"text-align: center;padding: 8px\">Voicebox<\/th>\n                    <th style=\"text-align: center;padding: 8px\">NaturalSpeech3<\/th>\n                    <th style=\"text-align: center;padding: 8px\">E2 TTS<\/th>\n                <\/tr>\n                <\/thead>\n                <tbody>\n\n                \n                \n                <!-- sample1 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000023.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        &#8220;Isn&#8217;t he splendid&#8221;! cried Jasper in intense pride, swelling up. &#8220;Father knew how to do it&#8221;.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000023.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000023.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000023.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000023.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000023.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n                \n                <!-- sample2 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000004.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        My wife, on the spur of the moment, managed to give the gentlemen a very good dinner.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000004.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000004.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000004.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000004.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000004.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample3 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000007.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        If he, to keep one oath, must lose one joy, by his life&#8217;s star foretold.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000007.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000007.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000007.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000007.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000007.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n                \n                <!-- sample4 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000001.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        But, John, there&#8217;s no society &#8211; just elementary work\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000001.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000001.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000001.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000001.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000001.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample5 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000027.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Oh, what a record to read; what a picture to gaze upon; how awful the fact!\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000027.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000027.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000027.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000027.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000027.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample6 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000030.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        The real human division is this: the luminous and the shady.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000030.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000030.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000030.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000030.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000030.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample7 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_prompts_00000039.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Captain Martin said: &#8216;I shall give you a pistol to help protect yourself if worse comes to worst!&#8217;\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_GT_00000039.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_VALLE_00000039.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_Voicebox_00000039.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_NaturalSpeech3_00000039.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_librispeech_test_clean_E2TTS_00000039.wav\"><\/audio>\n                    <\/td>\n                <\/tr>\n\n                <\/tbody>\n            <\/table>\n        <\/div>\n    <\/div>\n\n\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading is-style-l\" id=\"ravdess\">RAVDESS<\/h3>\n\n\n\n<p>All samples in this section are generated using audio prompts from the RAVDESS dataset. Text prompt is generated using Copilot.<\/p>\n\n\n\n<div style=\"width: 100%;margin: 0 auto\">\n\n\n    <div style=\"margin-bottom: 50px\">\n   \n        <div style=\"border-bottom: 2px solid black;margin-bottom: 2px\"><\/div>\n        <div style=\"background-color: #E6E6FA;padding: 20px;border-radius: 5px;max-width: 100%;margin: 20px auto\">\n            <table style=\"width: 100%;border-collapse: collapse;border: none\">\n                <thead>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Emotion<\/th>\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Audio prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Text prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" colspan=\"4\">Generated audio<\/th>\n                <\/tr>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\">Voicebox<\/th>\n                    <th style=\"text-align: center;padding: 8px\">E2 TTS<\/th>\n                <\/tr>\n                <\/thead>\n                <tbody>\n                \n                <!-- sample1 -->\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Neutral\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-01-01-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"8\">\n                        So, I was, like, at the, um, grocery store, and, uh, I saw this, like, really yummy-looking, um, cake, y&#8217;know? And I, uh, totally wanted to, like, buy it, but, um, I was, like, on a diet, so, uh, I just, like, stared at it for a while, y&#8217;know?\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_01_neutral_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_01_neutral_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Calm\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-02-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_02_calm_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_02_calm_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Happy\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-03-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_03_happy_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_03_happy_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Sad\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-04-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_04_sad_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_04_sad_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Angry\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-05-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_05_angry_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_05_angry_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Fearful\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-06-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_06_fearful_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_06_fearful_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Disgust\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-07-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_07_disgust_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_07_disgust_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Surprised\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_audio_prompts_03-01-08-02-01-01-01.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_voicebox_s1_08_surprised_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S1_E2TTS_s1_08_surprised_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                \n\n                <!-- sample2 -->\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Neutral\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-01-01-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"8\">\n                        I was, like, talking to my friend, and she&#8217;s all, um, excited about her, uh, trip to Europe, and I&#8217;m just, like, so jealous, right?\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_01_neutral_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_01_neutral_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Calm\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-02-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_02_calm_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_02_calm_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Happy\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-03-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_03_happy_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_03_happy_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Sad\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-04-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_04_sad_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_04_sad_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Angry\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-05-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_05_angry_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_05_angry_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Fearful\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-06-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_06_fearful_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_06_fearful_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Disgust\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-07-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    \n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_07_disgust_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_07_disgust_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        Surprised\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_audio_prompts_03-01-08-02-01-01-02.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_Voicebox_s2_08_surprised_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ravdess_S2_E2TTS_s2_08_surprised_0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>              \n\n\n                <\/tbody>\n            <\/table>\n\n\n        <\/div>\n    <\/div>\n\n\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading is-style-l\" id=\"hard-sentences\">Hard sentences<\/h3>\n\n\n\n<p>E2 TTS can generate hard sentences from <a class=\"msr-external-link glyph-append glyph-append-open-in-new-tab glyph-append-xsmall\" href=\"https:\/\/ereboas.github.io\/ELLAV\/\">ELLA-V<span class=\"sr-only\"> (opens in new tab)<\/span><\/a>. The following samples are generated using audio prompts from the LibriSpeech-PC test-clean set without cherry-picking.<\/p>\n\n\n\n<div style=\"width: 100%;margin: 0 auto\">\n\n\n    <div style=\"margin-bottom: 50px\">\n   \n        <div style=\"border-bottom: 2px solid black;margin-bottom: 2px\"><\/div>\n        <div style=\"background-color: #E6E6FA;padding: 20px;border-radius: 5px;max-width: 100%;margin: 20px auto\">\n            <table style=\"width: 100%;border-collapse: collapse;border: none\">\n                <thead>\n                    <tr style=\"border-bottom: 2px solid black\">\n                        <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Audio prompt<\/th>\n                        <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Text prompt<\/th>\n                        <th style=\"text-align: center;padding: 8px\" colspan=\"4\">E2 TTS generated audio<\/th>\n                    <\/tr>\n                <\/thead>\n                <tbody>\n                \n                <!-- sample1 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Active artists always appreciate artistic achievements and applaud awesome artworks.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample2 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample2.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Brave bakers boldly baked big batches of brownies in beautiful bakeries.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample2.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample3 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample3.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Daring dancers dazzled during dynamic dance displays, drawing delighted crowds.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample3.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample4 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample4.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Excited engineers eagerly enjoyed exploring enormous engineering exhibits.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample4.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample5 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample5.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Friendly farmers faithfully fostered fields, favoring fruitful crops.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample5.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample6 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample6.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Gallant gophers gracefully gambled golden gooseberries on grandiose glaciers.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample6.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample7 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample7.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Happy hikers harmoniously hiked through hilly landscapes on heavenly holidays.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample7.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample8 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample8.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Inquisitive individuals ingeniously invented innovative inventions.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample8.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample9 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample9.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Jovial joggers joyfully joined jogging jaunts, justifying joyful jolliness.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample9.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample10 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample10.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Keen kids keenly knitted knotted knots in kindergartens.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample10.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample11 -->\n                <tr style=\"border-bottom: 1px dashed black\">        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample11.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        F one F two F four F eight H sixteen H thirty two H sixty four.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample11.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n                <!-- sample12 -->\n                <tr>        \n                    <td style=\"text-align: center;padding: 8px\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_audio_prompts_sample12.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Clever cats carefully crafted colorful collages creating cheerful compositions.\n                    <\/td>\n\n                    <td style=\"text-align: center;vertical-align:middle\">\n                        <figure><audio style=\"width: 250px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_ella_v_e2tts_sample12.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n                    <\/td>\n                <\/tr>\n\n\n                \n\n                <\/tbody>\n            <\/table>\n\n\n        <\/div>\n    <\/div>\n\n\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading is-style-l\" id=\"changing-the-speech-rate\">Changing the speech rate<\/h3>\n\n\n\n<p>E2 TTS allows the modification of the speech rate by manipulating the total input duration.<\/p>\n\n\n\n<div style=\"width: 100%;margin: 0 auto\">\n\n    <div style=\"margin-bottom: 50px\">\n        <div style=\"background-color: #E6E6FA;padding: 20px;border-radius: 5px;max-width: 100%;margin: 20px auto\">\n            <table style=\"width: 100%;border-collapse: collapse;border: none\">\n                <thead>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Audio prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Text prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" colspan=\"6\">Speech rate<\/th>\n                <\/tr>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\">0.7x<\/th>\n                    <th style=\"text-align: center;padding: 8px\">1.0x<\/th>\n                    <th style=\"text-align: center;padding: 8px\">1.3x<\/th>\n                <\/tr>\n                <\/thead>\n                <tbody>\n\n                <!-- sample1 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s1_audio_prompt.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\" rowspan=\"1\">\n                        He gave way to the others very readily and retreated unperceived by the Squire and Mistress Fitzooth to the rear of the tent.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s1_0.7x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s1_1.0x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s1_1.3x_rate.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <!-- sample2 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_audio_prompt.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\" rowspan=\"1\">\n                        &#8220;How cheerfully he seems to grin, How neatly spread his claws, And welcome little fishes in With gently smiling jaws&#8221;!\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_0.7x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_1.0x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s2_1.3x_rate.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <!-- sample3 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s3_audio_prompt.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\" rowspan=\"1\">\n                        Yes; then something better, something still grander, will surely follow, or wherefore should they thus ornament me?\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s3_0.7x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s3_1.0x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s3_1.3x_rate.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <!-- sample4 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s4_audio_prompt.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\" rowspan=\"1\">\n                        And, though I have grown serene And strong since then, I think that God has willed A still renewable fear&#8230;\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s4_0.7x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s4_1.0x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s4_1.3x_rate.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <!-- sample5 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s5_audio_prompt.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\" rowspan=\"1\">\n                        He wore blue silk stockings, blue knee pants with gold buckles, a blue ruffled waist and a jacket of bright blue braided with gold.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s5_0.7x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s5_1.0x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s5_1.3x_rate.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <!-- sample6 -->\n                <tr>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s6_audio_prompt.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\" rowspan=\"1\">\n                        Not only this, but on the table I found a small ball of black dough or clay, with specks of something which looks like sawdust in it.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s6_0.7x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s6_1.0x_rate.wav\"><\/audio>\n                    <\/td>\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 150px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_speed_rate_s6_1.3x_rate.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                \n\n                <\/tbody>\n            <\/table>\n        <\/div>\n    <\/div>\n\n\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading is-style-l\" id=\"specifying-the-pronunciation-without-model-re-training\">Specifying the pronunciation without model re-training<\/h3>\n\n\n\n<p>E2 TTS allows users to specify the pronunciation of words based on their phoneme sequence.<\/p>\n\n\n\n<div style=\"width: 100%;margin: 0 auto\">\n\n    <div style=\"margin-bottom: 50px\">\n        <div style=\"background-color: #E6E6FA;padding: 20px;border-radius: 5px;max-width: 100%;margin: 20px auto\">\n            <table style=\"width: 100%;border-collapse: collapse;border: none\">\n                <thead>\n                <tr style=\"border-bottom: 2px solid black\">\n                    <th style=\"text-align: center;padding: 8px\" rowspan=\"2\">Text prompt<\/th>\n                    <th style=\"text-align: center;padding: 8px\" colspan=\"2\">E2 TTS generated audio<\/th>\n                <\/tr>\n                <\/thead>\n                <tbody>\n\n                <!-- sample2 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        I enjoyed a day in <b><span style=\"color:red\">Besiktas<\/span><\/b>, <b><span style=\"color:blue\">Istanbul<\/span><\/b>.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s1_01_wrong_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        I enjoyed a day in <b><span style=\"color:red\">(B EH1 SH IH0 K T AA0 SH)<\/span><\/b>, <b><span style=\"color:blue\">(IH0 S T AA1 N B UH0 L)<\/span><\/b>.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s1_01_correct_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <tr style=\"border-bottom: 1px dashed black;margin-bottom: 2px\">\n                <\/tr>\n                \n                <!-- sample2 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        During our dinner, we enjoyed a bottle of <b><span style=\"color:red\">sake<\/span><\/b>, which complemented our <b><span style=\"color:blue\">sushi<\/span><\/b> perfectly.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s2_01_wrong_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        During our dinner, we enjoyed a bottle of <b><span style=\"color:red\">(S AA1 K EH0)<\/span><\/b>, which complemented our <b><span style=\"color:blue\">(S UW1 SH IY0)<\/span><\/b> perfectly.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s2_02_correct_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <tr style=\"border-bottom: 1px dashed black;margin-bottom: 2px\">\n                <\/tr>\n\n                <!-- sample3 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        The <b><span style=\"color:red\">Qin<\/span><\/b> Dynasty is renowned for beginning the construction of the Great Wall of China.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s3_01_wrong_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        The <b><span style=\"color:red\">(CH IH1 N)<\/span><\/b> Dynasty is renowned for beginning the construction of the Great Wall of China.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s3_02_correct_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <tr style=\"border-bottom: 1px dashed black;margin-bottom: 2px\">\n                <\/tr>\n\n                <!-- sample4 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        At the concert, <b><span style=\"color:red\">Raj<\/span><\/b>, the drummer, received huge applause.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s4_01_wrong_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        At the concert, <b><span style=\"color:red\">(R AA1 J)<\/span><\/b>, the drummer, received huge applause.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s4_02_correct_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <tr style=\"border-bottom: 1px dashed black;margin-bottom: 2px\">\n                <\/tr>\n\n                <!-- sample5 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        Whether you say <b><span style=\"color:brown\">&#8216;(T AH0 M EY1 T OW0)&#8217;<\/span><\/b> or <b><span style=\"color:brown\">&#8216;(T AH0 M AA1 T OW0)&#8217;<\/span><\/b>, we can all agree that they&#8217;re essential for a good salad. \n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s5_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <tr style=\"border-bottom: 1px dashed black;margin-bottom: 2px\">\n                <\/tr>\n\n                <!-- sample6 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        It&#8217;s interesting how &#8216;vase&#8217; can be <b><span style=\"color:blue\">&#8216;(V AA1 Z)&#8217;<\/span><\/b>, <b><span style=\"color:blue\">&#8216;(V EY1 S)&#8217;<\/span><\/b>, or <b><span style=\"color:blue\">&#8216;(V AE1 S)&#8217;<\/span><\/b> depending on your accent.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s6_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n\n                <tr style=\"border-bottom: 1px dashed black;margin-bottom: 2px\">\n                <\/tr>\n\n                <!-- sample7 -->\n                <tr>\n                    <td style=\"text-align: left;padding: 8px\" rowspan=\"1\">\n                        No matter if you say <b><span style=\"color:blueviolet\">&#8216;(P IH0 K AA1 N)&#8217;<\/span><\/b>, <b><span style=\"color:blueviolet\">&#8216;(P IY1 K AE0 N)&#8217;<\/span><\/b>, or <b><span style=\"color:blueviolet\">&#8216;(P AH0 K AE1 N)&#8217;<\/span><\/b>, it is my favorite snack.\n                    <\/td>\n\n                    <td style=\"text-align: center;padding: 8px\">\n                        <audio controls style=\"width: 300px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/uploads\/prod\/2024\/06\/web_e2ttsx2_s7_0.wav\"><\/audio>\n                    <\/td>\n\n                <\/tr>\n                \n\n                <\/tbody>\n            <\/table>\n        <\/div>\n    <\/div>\n\n\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center is-style-default\" id=\"ethics-statement\">Ethics statement<\/h2>\n\n\n\n<p>E2 TTS is purely a research project. Currently, we have no plans to incorporate E2 TTS into a product or expand access to the public. E2 TTS could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While E2 TTS can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that E2 TTS is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.<\/p>\n\n\n\n<div style=\"height:30px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n","protected":false},"excerpt":{"rendered":"<p>Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS E2 TTS (Embarrassingly Easy TTS) is a fully non-autoregressive zero-shot text-to-speech (TTS) system capable of generating the voice of any speaker. Despite its extremely simple model architecture and training scheme, E2 TTS achieves human-level naturalness, and state-of-the-art speaker similarity and intelligibility. E2 TTS consists of only two modules: the [&hellip;]<\/p>\n","protected":false},"featured_media":0,"template":"","meta":{"msr-url-field":"","msr-podcast-episode":"","msrModifiedDate":"","msrModifiedDateEnabled":false,"ep_exclude_from_search":false,"footnotes":""},"research-area":[13556,13545],"msr-locale":[268875],"msr-impact-theme":[],"msr-pillar":[],"class_list":["post-1045248","msr-project","type-msr-project","status-publish","hentry","msr-research-area-artificial-intelligence","msr-research-area-human-language-technologies","msr-locale-en_us","msr-archive-status-active"],"msr_project_start":"","related-publications":[],"related-downloads":[],"related-videos":[],"related-groups":[],"related-events":[],"related-opportunities":[],"related-posts":[],"related-articles":[],"tab-content":[],"slides":[],"related-researchers":[{"type":"user_nicename","display_name":"Sefik Emre Eskimez","user_id":38655,"people_section":"Related people","alias":"seeskime"},{"type":"user_nicename","display_name":"Xiaofei Wang","user_id":38658,"people_section":"Related people","alias":"xiaofewa"},{"type":"user_nicename","display_name":"Manthan Thakker","user_id":39627,"people_section":"Related people","alias":"mathakke"},{"type":"user_nicename","display_name":"Naoyuki Kanda","user_id":38661,"people_section":"Related people","alias":"nakanda"}],"msr_research_lab":[199565],"msr_impact_theme":[],"_links":{"self":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project\/1045248"}],"collection":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project"}],"about":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/types\/msr-project"}],"version-history":[{"count":120,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project\/1045248\/revisions"}],"predecessor-version":[{"id":1065654,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project\/1045248\/revisions\/1065654"}],"wp:attachment":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/media?parent=1045248"}],"wp:term":[{"taxonomy":"msr-research-area","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/research-area?post=1045248"},{"taxonomy":"msr-locale","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-locale?post=1045248"},{"taxonomy":"msr-impact-theme","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-impact-theme?post=1045248"},{"taxonomy":"msr-pillar","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-pillar?post=1045248"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}