{"id":947154,"date":"2023-06-09T01:13:41","date_gmt":"2023-06-09T08:13:41","guid":{"rendered":"https:\/\/www.microsoft.com\/en-us\/research\/?post_type=msr-project&#038;p=947154"},"modified":"2025-01-12T04:41:19","modified_gmt":"2025-01-12T12:41:19","slug":"vall-e-x","status":"publish","type":"msr-project","link":"https:\/\/www.microsoft.com\/en-us\/research\/project\/vall-e-x\/","title":{"rendered":"VALL-E"},"content":{"rendered":"<section class=\"mb-3 moray-highlight\">\n\t<div class=\"card-img-overlay mx-lg-0\">\n\t\t<div class=\"card-background  has-background-catalina-blue card-background--full-bleed\">\n\t\t\t<img loading=\"lazy\" decoding=\"async\" width=\"2000\" height=\"601\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv.jpg\" class=\"attachment-full size-full\" alt=\"background pattern\" style=\"\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv.jpg 2000w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv-300x90.jpg 300w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv-1024x308.jpg 1024w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv-768x231.jpg 768w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv-1536x462.jpg 1536w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/brain-neuroscience-workshop-2023-kv-240x72.jpg 240w\" sizes=\"auto, (max-width: 2000px) 100vw, 2000px\" \/>\t\t<\/div>\n\t\t<!-- Foreground -->\n\t\t<div class=\"card-foreground d-flex mt-md-n5 my-lg-5 px-g px-lg-0\">\n\t\t\t<!-- Container -->\n\t\t\t<div class=\"container d-flex mt-md-n5 my-lg-5 \">\n\t\t\t\t<!-- Card wrapper -->\n\t\t\t\t<div class=\"w-100 w-lg-col-5\">\n\t\t\t\t\t<!-- Card -->\n\t\t\t\t\t<div class=\"card material-md-card py-5 px-md-5\">\n\t\t\t\t\t\t<div class=\"card-body \">\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\n\n<h1 class=\"wp-block-heading\" id=\"vall-e\">VALL-E<\/h1>\n\n\n\n<p>A neural codec language model for speech synthesis<\/p>\n\n\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t<\/div>\n\t\t<\/div>\n\t<\/div>\n<\/section>\n\n\n\n\n\n<p>We introduce a language modeling approach for text-to-speech synthesis (TTS). Specifically, we train a neural codec language model (called <strong>VALL-E<\/strong>) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather than continuous signal regression as in previous work. VALL-E emerges in-context learning capabilities and can be used to&nbsp;synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker as a prompt. VALL-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, VALL-E could preserve the speaker&#8217;s emotion and acoustic environment of the acoustic prompt in synthesis. Extending its capabilities, <strong>VALL-E X<\/strong> adapts to multi-lingual scenarios, facilitating cross-lingual zero-shot TTS. Meanwhile, <strong>VALL-E R<\/strong> introduces a phoneme monotonic alignment strategy, bolstering the robustness of speech generation. With the integration of repetition-aware sampling and grouped code modeling techniques, <strong>VALL-E 2<\/strong> achieves a groundbreaking milestone: human parity in zero-shot TTS performance on LibriSpeech and VCTK datasets. This marks the first instance of such an achievement, setting a new standard for the field. <strong>MELLE <\/strong>is a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"model-versions\">Model versions<\/h2>\n\n\n\n<table style=\"border-spacing: 1px 50px\">\n<tr>\n<td style=\"width: 52%\">\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-943299\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-1024x552.jpg\" alt=\"VALL-E model overview diagram\" width=\"640\" height=\"345\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-1024x552.jpg 1024w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-300x162.jpg 300w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-768x414.jpg 768w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-240x129.jpg 240w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview.jpg 1047w\" sizes=\"auto, (max-width: 640px) 100vw, 640px\" \/><\/figure>\n<\/td>\n<td>\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-944352\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vallex_framework.jpg\" alt=\"VALL-E X model overview diagram\" width=\"640\" height=\"345\" \/><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"width: 52%\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/vall-e-x\/vall-e\/\">See VALL-E samples<\/a><\/div>\n<\/td>\n<td>\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/vall-e-x\/vall-e-x\/\">See VALL-E X samples<\/a><\/div>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"width: 52%\">\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-943299\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler-768x338.jpg\" alt=\"VALL-E model overview diagram\" width=\"640\" height=\"345\"><\/figure>\n<\/td>\n<td>\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-944352\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/VALLE2.jpg\" alt=\"VALL-E X model overview diagram\" width=\"640\" height=\"345\" \/><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"width: 52%\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/vall-e-x\/vall-e-r\/\">See VALL-E R samples<\/a><\/div>\n<\/td>\n<td>\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/vall-e-x\/vall-e-2\/\">See VALL-E 2 samples<\/a><\/div>\n<\/td>\n<\/tr>\n<tr>\n<td align=\"left\" style=\"width: 52%\">\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-943299\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo.png\" alt=\"MELLE model overview diagram\" width=\"640\" height=\"345\"><\/figure>\n<\/td>\n<td>\n<\/td>\n<\/tr>\n<tr>\n<td align=\"left\" style=\"width: 52%\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/www.microsoft.com\/en-us\/research\/project\/vall-e-x\/melle\/\">See MELLE samples<\/a><\/div>\n<\/td>\n<td>\n<\/td>\n<\/tr>\n<\/table>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"ethics-statement\">Ethics statement<\/h2>\n\n\n\n<p>VALL-E  could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E  can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E  is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.<\/p>\n\n\n\n\n\n<p>VALL-E is a language modeling approach for text-to-speech synthesis (TTS). Specifically, we train a neural codec language model (called VALL-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather than continuous signal regression as in previous work. During the pre-training stage, we scale up the TTS training data to 60K hours of English speech which is hundreds of times larger than existing systems. VALL-E emerges in-context learning capabilities and can be used to <strong>synthesize high-quality personalized speech with only a 3-second enrolled recording of an unseen speaker<\/strong> as an acoustic prompt. Experiment results show that VALL-E significantly outperforms the state-of-the-art zero-shot TTS system in terms of speech naturalness and speaker similarity. In addition, we find VALL-E could preserve the speaker\u2019s emotion and acoustic environment of the acoustic prompt in synthesis.<\/p>\n\n\n\n<p>This page is for&nbsp;<strong>research demonstration purposes<\/strong>&nbsp;only.<\/p>\n\n\n\n<div class=\"wp-block-media-text has-vertical-margin-small  has-vertical-padding-none  has-media-on-the-right is-stacked-on-mobile is-style-border\" data-bi-an=\"media-text\"><div class=\"wp-block-media-text__content\" data-bi-an=\"media-text\">\n<h2 class=\"wp-block-heading\" id=\"model-overview-2\">Model Overview<\/h2>\n\n\n\n<p>Unlike the previous pipeline (e.g., phoneme \u2192 mel-spectrogram \u2192 waveform), the pipeline of VALL-E is phoneme \u2192 discrete code \u2192 waveform. VALL-E generates the discrete audio codec codes based on phoneme and acoustic code prompts, corresponding to the target content and the speaker\u2019s voice. VALL-E directly enables various speech synthesis applications, such as zero-shot TTS, speech editing, and content creation combined with other generative AI models like GPT.<\/p>\n<\/div><figure class=\"wp-block-media-text__media\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"552\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-1024x552.jpg\" alt=\"VALL-E model overview diagram\" class=\"wp-image-943299 size-full\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-1024x552.jpg 1024w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-300x162.jpg 300w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-768x414.jpg 768w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview-240x129.jpg 240w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/Overview.jpg 1047w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><\/div>\n\n\n\n<h2 class=\"wp-block-heading\" style=\"text-align: center\">Zero-shot TTS for LibriSpeech and VCTK dataset\u00a0<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n<thead>\n<tr style=\"height: 69px\">\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Ground Truth<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Reconstruction (Encodec)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Reconstruction (Vocos)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt (Prefix\/Ref)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Baseline Samples (YourTTS)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples <br> (Encodec)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples <br>  (Vocos)<\/th>\n\t\t\t<\/tr>\n<\/thead>\n<tbody>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">They moved thereafter cautiously about the hut groping before and about them to find something to show that Warrenton had fulfilled his mission<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_809_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">And lay me down in thy cold bed and leave my shining lot<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1216_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Number ten fresh nelly is waiting on you good night husband<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_1_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Yea his honourable worship is within but he hath a godly minister or two with him and likewise a leech<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_74_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Instead of shoes the old man wore boots with turnover tops and his blue coat had wide cuffs of gold braid<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_78_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">The army found the people in poverty and left them in comparative wealth<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_509_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Thus did this humane and right minded father comfort his unhappy daughter and her mother embracing her again did all she could to soothe her feelings<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_719_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">He was in deep converse with the clerk and entered the hall holding him by the arm<\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"2\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_conti_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ibrispeech_801_cross_infer_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<\/tbody>\n<\/table>\n\n\n\n\n\n\n\n<p><\/p>\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Ground Truth<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Reconstruction (Encodec)<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Reconstruction (Vocos)<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt (3s_5s_10s)<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Baseline Samples (YourTTS)<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples <br> (Encodec)<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples <br>  (Vocos)<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">We have to reduce the number of plastic bags<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_27_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">So what is the campaign about<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_36_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">My life has changed a lot<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_46_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">Nothing is yet confirmed<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_28_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">I could hardly move for the next couple of days<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_35_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">His son has been travelling with the Tartan Army for years<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_22_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">Her husband was very concerned that it might be fatal<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_21_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">We&#8217;ve made a couple of albums<\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td rowspan=\"3\" style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_3s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_5s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/ctk_8_10s_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<\/tr><\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n<p><\/p>\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading\" style=\"text-align: center\">Synthesis of diversity<\/h2>\n\n\n\n\n\n<p><\/p>\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n<thead>\n<tr style=\"height: 69px\">\n<th style=\"text-align: center;height: 69px\">Text<\/th>\n<th style=\"text-align: center;height: 69px\">Speaker Prompt<\/th>\n<th style=\"text-align: center;height: 69px\">VALL-E Sample1<\/th>\n<th style=\"text-align: center;height: 69px\">VALL-E Sample2<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr style=\"height: 0px\">\n<td style=\"text-align: left;vertical-align: middle;width: 500px;height: 0px\">Because we do not need it.<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p226_prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p226_s1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 344px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p226_s2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr style=\"height: 0px\">\n<td style=\"text-align: left;vertical-align: middle;width: 500px;height: 0px\">I must do something about it.<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p230_prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p230_s1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 344px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p230_s2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr style=\"height: 0px\">\n<td style=\"text-align: left;vertical-align: middle;width: 500px;height: 0px\">He has not been named.<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p246_prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p246_s1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 344px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vctk_diversity_p246_s2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr style=\"height: 0px\">\n<td style=\"text-align: left;vertical-align: middle;width: 500px;height: 0px\">Number ten, fresh nelly is waiting on you, good night husband.<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/librispeech_diversity_sample2_prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 342px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/librispeech_diversity_sample2_0.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center;height: 0px;width: 344px\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/librispeech_diversity_sample2_1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<p><\/p>\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading\" style=\"text-align: center\">Acoustic environment maintenance<\/h2>\n\n\n\n\n\n<p><\/p>\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Ground Truth<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Reconstruction (Encodec)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Reconstruction (Vocos)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt (3-second) <\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Baseline Samples (YourTTS)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples <br> (Encodec)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples  <br>  (Vocos)<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Yeah really Well they were saying it was snowing in southern Florida yesterday<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_0_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">I think it&#8217;s like you know um more convenient too<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_1_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Everything is run by computer but you got to know how to think before you can do a computer<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_2_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Then out in LA you guys got a whole other ballgame with California to worry about<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_gt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_gt_encodec.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_gt_vocos.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/isher_3_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n<p><\/p>\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading\" style=\"text-align: center\">Speaker emotion maintenance<\/h2>\n\n\n\n\n\n<p><\/p>\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Emotion<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt (3-second) <\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Baseline Samples (YourTTS)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples <br> (Encodec)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E Samples  <br>  (Vocos)<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"5\" style=\"text-align: left;vertical-align:middle;width: 500px\">We have to reduce the number of plastic bags.<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle;width: 220px\">Anger<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_1_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle;width: 220px\">Sleepy<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_4_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle;width: 220px\">Neutral<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_3_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle;width: 220px\">Amused<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_0_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle;width: 220px\">Disgusted<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_prompt.wav\" controls=\"controls\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_yourtts.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_yourtts.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_yourtts.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_valle.encodec.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_valle.encodec.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_valle.encodec.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_valle.vocos_.0.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_valle.vocos_.1.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mov_db_2_valle.vocos_.2.wav\" controls=\"controls\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n\n\n<h2 style=\"text-align: center\" id=\"Ethics-Statement\">Ethics Statement<\/h2>\n\t\n\t<p>\n\tVALL-E could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.\n\t<\/p>\n<\/div>\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n\n\n<p>We extend VALL-E to a  cross-lingual neural codec language model, VALL-E X, for cross-lingual speech synthesis, and train a multi-lingual conditional codec language model to predict the acoustic token sequences of the target language speech by using both the source language speech and the target language text as prompts. VALL-E X inherits strong in-context learning capabilities and can be applied for zero-shot cross-lingual text-to-speech synthesis and zero-shot speech-to-speech translation tasks. Experimental results show that it can <strong>generate high-quality speech in the target language via just one speech utterance in the source language as a prompt<\/strong> while preserving the unseen speaker&#8217;s voice, emotion, and acoustic environment. Moreover, VALL-E X effectively alleviates foreign accent problems, which can be controlled by a language ID.<\/p>\n\n\n\n<p>This page is for&nbsp;<strong>research demonstration purposes<\/strong>&nbsp;only.<\/p>\n\n\n\n<div class=\"wp-block-media-text has-vertical-margin-small  has-vertical-padding-none  has-media-on-the-right is-stacked-on-mobile is-style-border\" data-bi-an=\"media-text\"><div class=\"wp-block-media-text__content\" data-bi-an=\"media-text\">\n<h2 class=\"wp-block-heading\" id=\"model-overview-2\">Model Overview<\/h2>\n\n\n\n<p>VALL-E X can synthesize personalized speech in another language for a monolingual speaker. Taking the phoneme sequences derived from the source and target text, and the source acoustic tokens derived from an audio codec model as prompts, VALL-E X is able to produce the acoustic tokens in the target language, which can be then decompressed to the target speech waveform. Thanks to its powerful in-context learning capabilities, VALL-E X does not require cross-lingual speech data of the same speakers for training and can perform various zero-shot cross-lingual speech generation tasks, such as cross-lingual text-to-speech synthesis and speech-to-speech translation.<\/p>\n<\/div><figure class=\"wp-block-media-text__media\"><img loading=\"lazy\" decoding=\"async\" width=\"768\" height=\"384\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vallex_framework.jpg\" alt=\"VALL-E X model overview diagram\" class=\"wp-image-944352 size-full\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vallex_framework.jpg 768w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vallex_framework-300x150.jpg 300w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/vallex_framework-240x120.jpg 240w\" sizes=\"auto, (max-width: 768px) 100vw, 768px\" \/><\/figure><\/div>\n\n\n\n<div style=\"height:20px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"xtts-samples\">Zero-shot cross-lingual text to speech<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">English Text<\/th>\n<th style=\"text-align: center\">Chinese Speaker Prompt<\/th>\n<th style=\"text-align: center\">Baseline<\/th>\n<th style=\"text-align: center\">VALL-E X<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">Look a little closer while our guide lets the light of his lamp fall upon the black wall at your side.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_518_ch_prompts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_518_en_baseline.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_518_en_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">He honours whatever he recognizes in himself, such morality equals self-glorification.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_729_ch_prompts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_729_en_baseline.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_729_en_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">One dark night at the head of a score of his tribe, he fell upon Wabigoon&#8217;s camp, his object being the abduction of the princess.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_905_ch_prompts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_905_en_baseline.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_905_en_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">There could be little art in this last and final round of fencing.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_34_ch_prompts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_34_en_baseline.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_34_en_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">It&#8217;s the first time Hilda has been to our house and Tom introduces her around.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_205_ch_prompts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_205_en_baseline.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_aishell2libri_205_en_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">It was youth and poverty and proximity and everything was young and kindly.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_60_ch_prompts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_60_en_baseline.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_emime2libri_60_en_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Chinese Text<\/th>\n<th style=\"text-align: center\">English Speaker Prompt<\/th>\n<th style=\"text-align: center\">VALL-E X<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u575a\u6301\u623f\u5730\u4ea7\u8c03\u63a7\u653f\u7b56\u4e0d\u52a8\u6447\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_ref_output_238_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_output_238_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u503c\u5f97\u5173\u6ce8\u7684\u662f\u4ece\u4e8c\u96f6\u4e00\u96f6\u5e74\u5230\u4e8c\u96f6\u4e00\u56db\u5e74\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_ref_output_576_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_output_576_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u4e24\u5343\u516d\u767e\u56db\u5341\u516b\u4e07\u4e8c\u5343\u4e94\u767e\u56db\u5341\u516d\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_ref_output_590_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_output_590_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u6c47\u805a\u90e8\u5206\u5168\u7403\u9886\u5148\u54c1\u724c\u7684\u4e0b\u4e00\u4ee3\u6280\u672f\u521b\u65b0\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_ref_output_591_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_output_591_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u5546\u54c1\u623f\u9500\u552e\u60c5\u51b5\u4e5f\u4f20\u9012\u51fa\u4e86\u66f4\u591a\u6696\u610f\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_ref_output_610_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_output_610_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u6700\u4f4e\u9996\u4ed8\u6b3e\u6bd4\u4f8b\u4e3a\u767e\u5206\u4e4b\u4e00\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_ref_output_1243_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/xtts_output_1243_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"s2st-samples\">Zero-shot speech-to-speech translation<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Chinese Speech<\/th>\n<th style=\"text-align: center\">English Ground Truth<\/th>\n<th style=\"text-align: center\">Baseline<\/th>\n<th style=\"text-align: center\">VALL-E X Trans<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_source_zh_50.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_target_en_50.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_baseline_baseline_50.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_ours_vallex_50.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_source_zh_135.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_target_en_135.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_baseline_baseline_135.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_ours_vallex_135.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_source_zh_234.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_target_en_234.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_baseline_baseline_234.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_ours_vallex_234.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_source_zh_150.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_target_en_150.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_baseline_baseline_150.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_ours_vallex_150.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_source_zh_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_target_en_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_baseline_baseline_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_ours_vallex_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_source_zh_9.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_target_en_9.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_baseline_baseline_9.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_zh-en-translation_ours_vallex_9.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">English Speech<\/th>\n<th style=\"text-align: center\">Chinese Ground Truth<\/th>\n<th style=\"text-align: center\">VALL-E X Trans<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_source_en_204.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_target_zh_204.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_ours_vallex_204.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_source_en_98.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_target_zh_98.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_ours_vallex_98.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_source_en_137.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_target_zh_137.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_ours_vallex_137.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_source_en_209.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_target_zh_209.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_ours_vallex_209.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_source_en_148.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_target_zh_148.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_ours_vallex_148.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_source_en_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_target_zh_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_en-zh-translation_ours_vallex_168.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Chinese Text<\/th>\n<th style=\"text-align: center\">Chinese Speech<\/th>\n<th style=\"text-align: center\">Baseline<\/th>\n<th style=\"text-align: center\">VALL-E X Trans<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u6211\u4eec\u5c31\u5750\u5728\u4ed6\u7684\u4f4d\u4e8e\u534a\u5c71\u5761\u7684\u529e\u516c\u5ba4\u91cc\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_source_output_103_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_baseline_SSB07170458.104.yourtts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_ours_aishell_zh2en_103_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u662f\u5df4\u897f\u5973\u9009\u624b\u5728\u70ed\u8eab\u6cf3\u9053\u4e2d\u8fdd\u89c4\u4f7f\u7528\u811a\u6251\u5f71\u54cd\u4ed6\u4eba\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_source_output_140_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_baseline_SSB17450167.141.yourtts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_ours_aishell_zh2en_140_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u66f4\u5728\u4e8e\u8fd9\u9879\u8fd0\u52a8\u672c\u8eab\u5177\u6709\u7740\u6781\u5176\u4e30\u5bcc\u7684\u7cbe\u795e\u5185\u6db5\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_source_output_151_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_baseline_SSB08870390.152.yourtts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_ours_aishell_zh2en_151_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u7f8e\u56fd\u5e76\u6ca1\u6709\u7edf\u4e00\u7684\u5168\u56fd\u9ad8\u4e2d\u8054\u8d5b\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_source_output_3_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_baseline_SSB06930182.4.yourtts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_ours_aishell_zh2en_3_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u672c\u5e02\u8fd8\u8981\u6253\u9020\u6148\u5584\u6350\u8d60\u4e8b\u4e1a\u7684\u9633\u5149\u5de5\u7a0b\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_source_output_12_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_baseline_SSB11870416.13.yourtts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_ours_aishell_zh2en_12_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 500px\">\u8fbe\u831c\u516e\u4f1a\u79f0\u547c\u6211\u4e3a\u74e6\u9f50\u91cc\u5148\u751f\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_source_output_59_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_baseline_SSB07170279.60.yourtts.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-aishell3-zhen_ours_aishell_zh2en_59_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">English Text<\/th>\n<th style=\"text-align: center\">English Speech<\/th>\n<th style=\"text-align: center\">VALL-E X Trans<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">His instant of panic was followed by a small sharp blow high on his chest.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_22_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_22_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">The last two days of the voyage Bartley found almost intolerable.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_61_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_61_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">She merely brushed his cheek with her lips and put a hand lightly and joyously on either shoulder.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_65_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_65_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">But in this awful moment of the danger of the church. their vow was superseded by a more sublime and indispensable duty.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_105_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_105_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">We&#8217;ve lost the key of the cellar and there&#8217;s nothing out except water and i don&#8217;t think you&#8217;d care for that.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_425_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_425_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">He had been late he had offered no excuse no explanation.<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_1058_reference.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/s2st_s2st-libridev-enzh_output_1058_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"lid-samples\">Foreign accent control<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">English Speech (Prompt)<\/th>\n<th style=\"text-align: center\">Chinese Speech (Ground Truth)<\/th>\n<th style=\"text-align: center\">VALL-E X with English LID<\/th>\n<th style=\"text-align: center\">VALL-E X with Chinese LID<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en_43_truth.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_zh_43_truth.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en2zh_43_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en2zh_43_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_MF1_ENG_0002_1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_MF1_MAN_0002_1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_output_with_EN_LID_MF1_ENG_0002_1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_output_with_ZH_LID_MF1_ENG_0002_1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en_252_truth.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_zh_252_truth.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en2zh_252_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en2zh_252_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en_266_truth.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_zh_266_truth.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en2zh_266_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_enzh_emime_en2zh_266_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Chinese Speech (Prompt)<\/th>\n<th style=\"text-align: center\">English Speech (Ground Truth)<\/th>\n<th style=\"text-align: center\">VALL-E X with English LID<\/th>\n<th style=\"text-align: center\">VALL-E X with Chinese LID<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_236_truth_zh.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_236_truth_en.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_236_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_236_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_155_truth_zh.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_155_truth_en.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_155_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_155_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_123_truth_zh.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_123_truth_en.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_123_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_123_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_262_truth_zh.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_262_truth_en.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_262_ar01lid2.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/LID_zhen_emime_zh2en_262_ar01lid1.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"emotion-samples\">Voice emotion maintenance<\/h2>\n\n\n\n\n\n<p>VALL-E X Trans can synthesize personalized target speech while maintaining the emotion in the source speech. The source audio are sampled from the Emotional Voices Database EmoV-DB.<\/p>\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Emotion<\/th>\n<th style=\"text-align: center\">English Speech<\/th>\n<th style=\"text-align: center\">VALL-E X Trans<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">Neutral<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_4162_neutral_85-112_0097.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_4162_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">Amused<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_3872_amused_85-112_0110.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_3872_28_2_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">Sleepiness<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_1455_sleepiness_253-280_0253.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_1455_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">Anger<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_5249_anger_367-392_0368.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_5249_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">Disgust<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_5712_disgust_336-364_0364.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/emotion_output_5712_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"codeswitch-samples\">Code-switch speech synthesis<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Code-Switch Text<\/th>\n<th style=\"text-align: center\">Prompts<\/th>\n<th style=\"text-align: center\">VALL-E X<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">\u64ad\u653e\u6b4c\u66f2 BEST FRIEND\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_12_MF3_MAN_0010_0.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_output_12_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">\u6211\u60f3\u53bbtravel\u4e00\u4e0b\uff0c\u653e\u677e\u4e00\u4e0b\u81ea\u5df1\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_25_MM5_MAN_0003_0.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_output_25_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">\u4ed6\u662f\u4e00\u4e2afunny\u7684\u4eba\uff0c\u603b\u662f\u8bb2\u7b11\u8bdd\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_26_MM5_MAN_0024_0.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_output_26_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">\u8fd9\u4e2arestaurant\u5f88\u6709\u540d\uff0c\u5f88\u591a\u4eba\u90fd\u6765\u5403\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_17_MM1_MAN_0003_0.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_output_17_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td style=\"text-align: center;vertical-align: middle;width: 500px\">\u8fd9\u4e2apizza\u5f88\u597d\u5403\uff0c\u4f60\u8981\u4e0d\u8981try\u4e00\u4e0b\u3002<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_32_MM7_MAN_0019_0.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/05\/codeswitch_output_32_decompressed.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n\n\n\n\n\n<h2 style=\"text-align: center\" id=\"Ethics-Statement\">Ethics Statement<\/h2>\n\t\n\t<p>\n\tVALL-E X could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E X can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E X is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.\n\t<\/p>\n<\/div>\n\n\n\n<hr class=\"wp-block-separator has-text-color has-blue-color has-alpha-channel-opacity has-blue-background-color has-background is-style-dots\" \/>\n\n\n\n\n\n<p>With the help of discrete neural audio codecs, large language models (LLM) have increasingly been recognized as a promising methodology for zero-shot Text-to-Speech (TTS) synthesis. However, sampling based decoding strategies bring astonishing diversity to generation, but also pose robustness issues such as typos, omissions and repetition. In addition, the high sampling rate of audio also brings huge computational overhead to the inference process of autoregression. To address these issues, we propose VALL-E R, a robust and efficient zero-shot TTS system, building upon the foundation of VALL-E. Specifically, we introduce a <strong>phoneme monotonic alignment strategy<\/strong> <strong>to strengthen the connection between phonemes and acoustic sequence<\/strong>, ensuring a more precise alignment by constraining the acoustic tokens to match their associated phonemes. Furthermore, we employ a <strong>merge codec approach to downsample the discrete codes in shallow quantization laye<\/strong>r, thereby accelerating the decoding speed while preserving the high quality of speech output. Benefiting from these strategies, VALL-E R obtains controllablity over phonemes and demonstrates its strong robustness by approaching the WER of ground truth in experimental results. In addition, it requires fewer autoregressive steps during inference, resulting in over 60% time savings in inference time. This research has the potential to be applied to meaningful projects, including the creation of speech for those affected by aphasia.<\/p>\n\n\n\n<p>This page is for&nbsp;<strong>research demonstration purposes<\/strong>&nbsp;only. Currently, we have no plans to incorporate VALL-E R into a product or expand access to the public.<\/p>\n\n\n\n<div class=\"wp-block-media-text has-vertical-margin-small  has-vertical-padding-none  has-media-on-the-right is-stacked-on-mobile is-style-border\" data-bi-an=\"media-text\"><div class=\"wp-block-media-text__content\" data-bi-an=\"media-text\">\n<h2 class=\"wp-block-heading\" id=\"model-overview-2\">Model Overview<\/h2>\n\n\n\n<p>The overview of VALL-E R, a robust and efficient neural codec language model for zero-shot TTS. It incorporates phoneme information (green) when predict audio codec (blue), which can enhance the connection between phoneme and audio to improve the robustness of decoder-only transformer TTS model. Note that VALL-E R achieves faster inference speeds by adopting compact codec codes, derived from the proposed merge codec method, within its autoregressive model.<\/p>\n<\/div><figure class=\"wp-block-media-text__media\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"451\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler-1024x451.jpg\" alt=\"diagram\" class=\"wp-image-1027320 size-full\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler-1024x451.jpg 1024w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler-300x132.jpg 300w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler-768x338.jpg 768w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler-240x106.jpg 240w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/valler.jpg 1500w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"xtts-samples\">Audio Samples<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Text<\/th>\n<th style=\"text-align: center\">Prompt<\/th>\n<th style=\"text-align: center\">VALL-E<\/th>\n<th style=\"text-align: center\">VALL-E R<\/th>\n<th style=\"text-align: center\">Ground Truth<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">THEN DEAR SAID MISSUS WHITNEY YOU MUST BE KINDER TO HER THAN EVER THINK WHAT IT WOULD BE FOR ONE OF YOU TO BE AWAY FROM HOME EVEN AMONG FRIENDS<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-126133-0002.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-126133-0002.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-126133-0002.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-126133-0002.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">CRIED ALICE AGAIN FOR THIS TIME THE MOUSE WAS BRISTLING ALL OVER AND SHE FELT CERTAIN IT MUST BE REALLY OFFENDED<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123440-0019.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123440-0019.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123440-0019.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123440-0019.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">THE CHAOS IN WHICH HIS ARDOUR EXTINGUISHED ITSELF WAS A COLD INDIFFERENT KNOWLEDGE OF HIMSELF<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1089-134686-0008.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1089-134686-0008.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1089-134686-0008.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1089-134686-0008.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">YOU WERE QUITE RIGHT TO SAY NO AMBROSE BEGAN NEVER SMOKE WITH JOHN JAGO HIS CIGARS WILL POISON YOU<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/5142-36377-0023.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/5142-36377-0023.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/5142-36377-0023.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/5142-36377-0023.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">MOTHER CAREY POURED COFFEE NANCY CHOCOLATE AND THE OTHERS HELPED SERVE THE SANDWICHES AND CAKE DOUGHNUTS AND TARTS<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/4992-41806-0011.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/4992-41806-0011.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/4992-41806-0011.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/4992-41806-0011.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Text<\/th>\n<th style=\"text-align: center\">Prompt<\/th>\n<th style=\"text-align: center\">VALL-E<\/th>\n<th style=\"text-align: center\">VALL-E R<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">HE SAT DOWN WEAK BEWILDERED AND ONE THOUGHT WAS UPPERMOST ZORA<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1995-1837-0019.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1995-1837-0019.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1995-1837-0019.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">EDISON HELD THAT THE ELECTRICITY SOLD MUST BE MEASURED JUST LIKE GAS OR WATER AND HE PROCEEDED TO DEVELOP A METER<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/2300-131720-0027.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/2300-131720-0027.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/2300-131720-0027.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">THE LODGE IN WHICH UNCAS WAS CONFINED WAS IN THE VERY CENTER OF THE VILLAGE AND IN A SITUATION PERHAPS MORE DIFFICULT THAN ANY OTHER TO APPROACH OR LEAVE WITHOUT OBSERVATION<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1320-122617-0011.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1320-122617-0011.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1320-122617-0011.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">AND THEN HE TOLD ALL ABOUT HIS YOUTH AND THE LITTLE MICE HAD NEVER HEARD THE LIKE BEFORE AND THEY LISTENED AND SAID<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0055.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0055.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0055.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">THE QUESTION IS WHICH OF THE TWO METHODS WILL MOST EFFECTIVELY REACH THE PERSONS WHOSE CONVICTIONS IT IS DESIRED TO AFFECT<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/3570-5695-0008.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/3570-5695-0008.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/3570-5695-0008.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Text<\/th>\n<th style=\"text-align: center\">Prompt<\/th>\n<th style=\"text-align: center\">Prosody Reference<\/th>\n<th style=\"text-align: center\">VALL-E R<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">IF IT ONLY WERE NOT SO DARK HERE AND SO TERRIBLY LONELY<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0048.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0048.prosody.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0048.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">I PRAY FOR YOU BUT THAT&#8217;S NOT THE SAME AS IF YOU PRAYED YOURSELF<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-134500-0040.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-134500-0040.prosody.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/237-134500-0040.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">ALL MY DANGER AND SUFFERINGS WERE NEEDED TO STRIKE A SPARK OF HUMAN FEELING OUT OF HIM BUT NOW THAT I AM WELL HIS NATURE HAS RESUMED ITS SWAY<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123286-0002.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123286-0002.prosody.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/260-123286-0002.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">AND THE WHOLE NIGHT THE TREE STOOD STILL AND IN DEEP THOUGHT<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0040.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0040.prosody.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0040.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">AGAINST THESE BOASTING FALSE APOSTLES PAUL BOLDLY DEFENDS HIS APOSTOLIC AUTHORITY AND MINISTRY<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/2830-3980-0006.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/2830-3980-0006.prosody.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/2830-3980-0006.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Text<\/th>\n<th style=\"text-align: center\">Prompt<\/th>\n<th style=\"text-align: center\">VALL-E<\/th>\n<th style=\"text-align: center\">VALL-E R<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">As the cosmic cosmic cosmic cosmic cosmic cosmic dance of the stars unfolds in in in in in in silence, revealing the mystical mysteries of the celestial celestial celestial celestial celestial celestial realm<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/61.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/61.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/61.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">Beneath the moonlit night, the solitary wolf\u2019s haunting howl howl howl howl howl echoed through the ancient forest, embodying the primal spirit of the wilderness<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/64.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/64.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/64.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">The relentless relentless relentless relentless relentless relentless pursuit of perfection in in in in in in in in in craftsmanship led the artisan to create an exquisite masterpiece admired for its meticulous meticulous meticulous meticulous meticulous meticulous details<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/81.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/81.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/81.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">As the quantum physicist delved into the quantum realm, the enigmatic entanglement of particles perplexed even the most astute astute astute astute astute astute minds<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/62.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/62.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/62.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">Adventurous ants anxiously ate apples, adventurous adventurous apples<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/31.prompt.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/31.valle_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/31.valler.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n\n<\/tbody>\n<\/table>\n\n\n\n\n\n<table class=\"table table-hover pt-2\">\n<thead>\n<tr>\n<th style=\"text-align: center\">Text<\/th>\n<th style=\"text-align: center\">Ground Truth<\/th>\n<th style=\"text-align: center\">Merge Codec<\/th>\n<th style=\"text-align: center\">Encodec<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">AND ALL HIS BROTHERS AND SISTERS STOOD ROUND AND LISTENED WITH THEIR MOUTHS OPEN<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/7021-85628-0022.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/7021-85628-0022.merge_encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/7021-85628-0022.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">THEN AS IF SATISFIED OF THEIR SAFETY THE SCOUT LEFT HIS POSITION AND SLOWLY ENTERED THE PLACE<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1320-122617-0017.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1320-122617-0017.merge_encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/1320-122617-0017.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">HOTEL A PLACE WHERE A GUEST OFTEN GIVES UP GOOD DOLLARS FOR POOR QUARTERS<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/121-121726-0009.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/121-121726-0009.merge_encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/121-121726-0009.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">THIS WAS WHAT DID THE MISCHIEF SO FAR AS THE RUNNING AWAY WAS CONCERNED<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/8463-287645-0000.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/8463-287645-0000.merge_encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/8463-287645-0000.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n<tr>\n<td style=\"text-align: left;vertical-align: middle;width: 600px\">IT WAS IN A CORNER THAT HE LAY AMONG WEEDS AND NETTLES<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0069.gt_.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0069.merge_encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<td style=\"text-align: center\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2024\/04\/672-122797-0069.encodec.wav\" controls=\"controls\"><\/audio><\/figure>\n<\/td>\n<\/tr>\n\n\n<\/tbody>\n<\/table>\n\n\n\n\n\n<h2 style=\"text-align: center\" id=\"Ethics-Statement\">Ethics Statement<\/h2>\n\t\n\t<p>\n\tVALL-E R could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E R can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E R is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.\n\t<\/p>\n<\/div>\n\n\n\n\n\n<p>VALL-E 2 is the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), <em>achieving human parity for the first time<\/em>. Building upon the foundation laid by its predecessor, VALL-E, the new iteration introduces two significant enhancements to elevate its performance: <strong>Repetition Aware Sampling<\/strong> refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue encountered in VALL-E. <strong>Grouped Code Modeling<\/strong> organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments, conducted on the LibriSpeech and VCTK datasets, have shown that VALL-E 2 surpasses previous zero-shot TTS systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases.<\/p>\n\n\n\n<p>This page is for <strong>research demonstration purposes<\/strong> only. Currently, we have no plans to incorporate VALL-E 2 into a product or expand access to the public.<\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-1 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\" style=\"flex-basis:100%\">\n<table style=\"margin-left: auto;margin-right: auto\">\n<tr>\n<td style=\"width: 47%\" align=\"center\">\n<figure class=\"wp-block-image size-large is-resized\"><img decoding=\"async\" class=\"wp-image-943299\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/VALLE2-1024x496.jpg\" alt=\"raphical user interface, application, Word\"><\/figure>\n<\/td>\n<td style=\"width:6%\" \/>\n<td align=\"center\">\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img decoding=\"async\" class=\"wp-image-944352\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/Overview-1024x579.png\" alt=\"graphical user interface, application, Word\" \/><\/figure>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p> Grouped code modeling not only accelerates inference by reducing the sequence length but also improves performance by mitigating the long context modeling problem. Based on the token repetition in the decoding history, repetition aware sampling enhances the stability of the decoding process and circumvents the infinite loop issue encountered in VALL-E.<\/p>\n<\/td>\n<td \/>\n<td>\n<p> VALL-E 2 achieves human parity zero-shot TTS performance for the first time. In this context, human parity indicates that the robustness, naturalness, and similarity metrics of VALL-E 2 surpass those of the ground truth samples ( WER(GroundTruth) \u2212 WER(VALL-E 2) >0, CMOS(VALL-E 2) \u2212 CMOS(GroundTruth) >0, and SMOS(VALL-E 2) \u2212 SMOS(GroundTruth)>0), meaning that VALL-E 2 can generate accurate, natural speech in the exact voice of the original speaker, comparable to human performance.  It is important to note that this conclusion is drawn solely from experimental results on the LibriSpeech and VCTK datasets.<\/p>\n<\/td>\n<\/tr>\n<\/table>\n<\/div>\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"audio-samples-1\">Audio Samples<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt <\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E <\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">F one F two F four F eight H sixteen H thirty two H sixty four<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_0_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_0_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_0_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_0_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_0_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Clever cats carefully crafted colorful collages creating cheerful compositions<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_7_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_7_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_7_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_7_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_7_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Curious koalas curiously climbed curious curious climbers<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_40_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_40_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_40_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_40_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_40_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Sad snakes sadly sighed sad sad sighs<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_42_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_42_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_42_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_42_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_42_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Joyful jaguars joyfully jumped joyful joyful jumps<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_46_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_46_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_46_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_46_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_46_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Noisy newts nonsensically nibbled noisy noisy nibbles<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_48_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_48_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_48_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_48_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_48_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">Crafting a symphony of flavors the skilled chef orchestrated a culinary masterpiece that left an indelible mark mark mark mark mark on the palates of the discerning diners<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_67_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_67_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_67_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_67_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_67_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: left;vertical-align:middle;width: 500px\">The future belongs to belongs to belongs to belongs to belongs to those who believe in the beauty of the beauty of the beauty of the beauty of the beauty of their dreams<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_89_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_89_valle.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_89_valle.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_89_valle2.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_hard_samples_89_valle2.1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt (Prefix\/Ref)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E <\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2 <br> (GroupSize=1)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2 <br> (GroupSize=2)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2 <br> (GroupSize=4)<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">They moved thereafter cautiously about the hut groping before and about them to find something to show that Warrenton had fulfilled his mission<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_conti_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_conti_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_conti_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_conti_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_conti_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_cross_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_cross_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_cross_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_cross_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_809_cross_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">And lay me down in thy cold bed and leave my shining lot<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_conti_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_conti_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_conti_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_conti_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_conti_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_cross_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_cross_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_cross_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_cross_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1216_cross_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Number ten fresh nelly is waiting on you good night husband<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_conti_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_conti_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_conti_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_conti_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_conti_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_cross_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_cross_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_cross_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_cross_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_1_cross_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Yea his honourable worship is within but he hath a godly minister or two with him and likewise a leech<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_conti_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_conti_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_conti_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_conti_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_conti_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_cross_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_cross_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_cross_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_cross_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_74_cross_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t\n\t\t\t<tr>\n\t\t\t<td rowspan=\"2\" style=\"text-align: left;vertical-align:middle;width: 500px\">Instead of shoes the old man wore boots with turnover tops and his blue coat had wide cuffs of gold braid<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_conti_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_conti_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_conti_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_conti_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_conti_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_cross_infer_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_cross_infer_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_cross_infer_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_cross_infer_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_librispeech_78_cross_infer_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t\n\t\t\t<\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Text<\/th>\n\t\t\t\t<th style=\"text-align: center;vertical-align:middle\">Speaker Prompt (3s\/5s\/10s)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E <\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2 <br>  (GroupSize=1)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2 <br>  (GroupSize=2)<\/th>\n\t\t\t<th style=\"text-align: center;vertical-align:middle\">VALL-E 2 <br>  (GroupSize=4)<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">We have to reduce the number of plastic bags<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_3s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_3s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_3s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_3s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_3s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_5s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_5s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_5s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_5s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_5s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_10s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_10s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_10s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_10s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_27_10s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">So what is the campaign about<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_3s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_3s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_3s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_3s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_3s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_5s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_5s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_5s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_5s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_5s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_10s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_10s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_10s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_10s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_36_10s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">My life has changed a lot<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_3s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_3s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_3s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_3s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_3s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_5s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_5s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_5s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_5s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_5s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_10s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_10s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_10s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_10s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_46_10s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">Nothing is yet confirmed<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_3s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_3s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_3s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_3s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_3s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_5s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_5s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_5s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_5s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_5s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_10s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_10s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_10s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_10s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_28_10s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td rowspan=\"3\" style=\"text-align: left;vertical-align:middle;width: 500px\">I could hardly move for the next couple of days<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_3s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_3s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_3s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_3s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_3s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_5s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_5s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_5s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_5s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_5s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t<tr>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_10s_prompt.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_10s_valle.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_10s_valle2_shift1.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_10s_valle2_shift2.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<td style=\"text-align: center;vertical-align:middle\">\n\t\t\t\t<figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/valle2_vctk_35_10s_valle2_shift4.vocos_.0.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure>\n\t\t\t<\/td>\n\t\t\t<\/tr>\n\t\t\t\n\t\t\t<tr>\n\t\t\t<\/tr><\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n<div class=\"container pt-5 mt-5 shadow p-5 mb-5 bg-white rounded\">\t\t\n\t<h2 id=\"Ethics-Statement\" style=\"text-align: center\">Ethics Statement<\/h2>\n\t<p>\n\tVALL-E 2 is purely a research project. Currently, we have no plans to incorporate VALL-E 2 into a product or expand access to the public. VALL-E 2 could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E 2 can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E 2 is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.\n\t<\/p>\n<\/div>\n\n\n\n\n\n<p>MELLE is a novel continuous-valued tokens based language modeling approach for text to speech synthesis (TTS). MELLE autoregressively generates continuous mel-spectrogram frames directly from text condition, bypassing the need for vector quantization, which are originally designed for audio compression and sacrifice fidelity compared to mel-spectrograms. Specifically, (i) instead of cross-entropy loss, we apply <strong>regression loss with a proposed spectrogram flux loss function<\/strong> to model the probability distribution of the continuous-valued tokens. (ii) we have <strong>incorporated variational inference into MELLE to facilitate sampling mechanisms<\/strong>, thereby enhancing the output diversity and model robustness. Experiments demonstrate that, compared to the two-stage codec language models VALL-E and its variants, the single-stage MELLE mitigates robustness issues by avoiding the inherent flaws of sampling discrete codes, achieves superior performance across multiple metrics, and, most importantly, offers a more streamlined paradigm.<\/p>\n\n\n\n<p>This page is for <strong>research demonstration purposes<\/strong> only. Currently, we have no plans to incorporate MELLE into a product or expand access to the public.<\/p>\n\n\n\n<div class=\"wp-block-media-text has-vertical-margin-small  has-vertical-padding-none  has-media-on-the-right is-stacked-on-mobile is-vertically-aligned-center\" style=\"grid-template-columns:auto 46%\" data-bi-an=\"media-text\"><div class=\"wp-block-media-text__content\" data-bi-an=\"media-text\">\n<h2 class=\"wp-block-heading\" id=\"model-overview\">Model Overview<\/h2>\n\n\n\n<p>Unlike discrete-valued tokens based language modeling approaches, MELL-E generates the continuous variational mel-spectrogram conditioned on textual and acoustic prompts, using a single-stage decoder-only model as its foundational structures, coupled with the Latent Sampling Module. Variational inference is incorporated into MELLE to facilitate sampling mechanisms, thereby enhancing the output diversity and model robustness.<\/p>\n<\/div><figure class=\"wp-block-media-text__media\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"637\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-1024x637.png\" alt=\"melle_demo\" class=\"wp-image-1056624 size-full\" srcset=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-1024x637.png 1024w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-300x187.png 300w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-768x478.png 768w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-1536x955.png 1536w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-2048x1274.png 2048w, https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/melle_demo-240x149.png 240w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><\/div>\n\n\n\n<h2 class=\"wp-block-heading has-text-align-center\" id=\"audio-samples\">Audio Samples<\/h2>\n\n\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t\t<th style=\"text-align: center\">English Text<\/th>\n\t\t\t\t<th style=\"text-align: center\">Speaker Prompt<\/th>\n\t\t\t\t<th style=\"text-align: center\">VALL-E 2<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELL-E<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELL-E-R2<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Unc knocked at the door of the house, and a chubby, pleasant-faced woman dressed all in blue opened it and greeted the visitors with a smile.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_1284-1180-0010.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_1284-1180-0010.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_1284-1180-0010.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_1284-1180-0010.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">The dews were suffered to exhale, and the sun had dispersed the mists and was shedding a strong and clear light in the forest, when the travelers resumed their journey.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_1320-122612-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_1320-122612-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_1320-122612-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_1320-122612-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\t\t\t\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">And often has my mother said, while on her lap I laid my head, she feared for time I was not made, but for eternity.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_3575-170457-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_3575-170457-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_3575-170457-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_3575-170457-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\t\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">In order to please her, I spoke to her of the Abbe Conti, and I had occasion to quote two lines of that profound writer.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_3729-6852-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_3729-6852-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_3729-6852-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_3729-6852-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">He had preconceived ideas about everything, and his idea about Americans was that they should be engineers or mechanics.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_4446-2271-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_4446-2271-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_4446-2271-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_4446-2271-0001.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Now Delia contrived to obtain a great influence and ascendency over the minds of the children, by means of these dolls.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_7021-79740-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_7021-79740-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_7021-79740-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_7021-79740-0002.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">This was what did the mischief so far as the running away was concerned.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_8463-287645-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_8463-287645-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_8463-287645-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_8463-287645-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Then he rushed downstairs into the courtyard, shouting loudly for his soldiers, and threatening to punish everybody in his dominions, if the sailorman was not recaptured.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_prompt_8555-284447-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_valle2_8555-284447-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle_8555-284447-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/continue_melle-r2_8555-284447-0000.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n\n\n<table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t\t<th style=\"text-align: center\">English Text<\/th>\n\t\t\t\t<th style=\"text-align: center\">Speaker Prompt<\/th>\n\t\t\t\t<th style=\"text-align: center\">VALL-E 2<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELL-E<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELL-E-R2<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">I greatly mourn that one so well-disposed should die in his ignorance, and I have sought a goodly hymn. Can you lead me to him?<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_1320-122617-0009.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_1320-122617-0009.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_1320-122617-0009.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_1320-122617-0009.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">In a few hours the examination would commence, and he was still in the dilemma between making the facts public, and allowing the culprit to compete for the valuable scholarship.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_1580-141084-0023.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_1580-141084-0023.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_1580-141084-0023.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_1580-141084-0023.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\t\t\t\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">To teach reading, means to light the fire; every syllable spelled out sparkles.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_4507-16021-0055.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_4507-16021-0055.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_4507-16021-0055.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_4507-16021-0055.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\t\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">&#8220;Yes, something, everything.&#8221; said Rachel hurriedly, looking frowningly at a flower which she was twirling in her fingers.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_5683-32879-0014.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_5683-32879-0014.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_5683-32879-0014.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_5683-32879-0014.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">&#8220;This has indeed been a harassing day,&#8221; continued the young man, his eyes fixed upon his friend.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_6930-75918-0006.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_6930-75918-0006.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_6930-75918-0006.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_6930-75918-0006.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">And it is made of mother&#8217;s best yarn, and she knitted it herself, and everybody wants to get it away from me.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_7021-85628-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_7021-85628-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_7021-85628-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_7021-85628-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">And there you are. You will, of course, appreciate that the unfinished sentences not only save time, but also make the maneuvering much more natural.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_7176-92135-0031.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_7176-92135-0031.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_7176-92135-0031.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_7176-92135-0031.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">While the old gold and the marble stays, forever gleaming its soft strong blaze, calm in the early evening glow.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_prompt_8555-292519-0005.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_valle2_8555-292519-0005.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle_8555-292519-0005.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/cross_melle-r2_8555-292519-0005.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table>\n\n\n\n\n\n\n\n<p><table class=\"table table-hover pt-2\" style=\"height: 0px;border-spacing: inherit;border-collapse: collapse\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t\t<th style=\"text-align: center\">English Text<\/th>\n\t\t\t\t<th style=\"text-align: center\">Speaker Prompt<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELL-E<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELL-E-R2<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Two thousand two hundred twenty two happily happy two hundred and twenty-two.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_61-70970-0040.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_61-70970-0040.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_61-70970-0040.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Gallant gophers gracefully gambled golden gooseberries on grandiose glaciers.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_121-121726-0004.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_121-121726-0004.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_121-121726-0004.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\t\t\t\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">The entrepreneur, driven by an insatiable insatiable insatiable insatiable insatiable desire for success, embarked on a journey filled with challenges, challenges, challenges, challenges, challenges, challenges, and triumphs.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_908-157963-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_908-157963-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_908-157963-0018.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\t\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">The shimmering sheen of the silken fabric fascinated the fashionistas, creating a cacophony of compliments.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_1284-1180-0011.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_1284-1180-0011.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_1284-1180-0011.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Learning from mistakes is is is is is is a crucial part of the journey to success.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_1580-141083-0008.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_1580-141083-0008.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_1580-141083-0008.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Amidst the towering skyscrapers, the bustling cityscape echoed with the incessant hum hum hum hum hum of commerce and ambition.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_3575-170457-0021.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_3575-170457-0021.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_3575-170457-0021.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Eager otters eagerly overcame eager eager obstacles.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_4446-2275-0008.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_4446-2275-0008.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_4446-2275-0008.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">The best way to predict the best way to predict the future is to create it, but sometimes, the best way to predict the future is to prevent it.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_4507-16021-0054.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_4507-16021-0054.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_4507-16021-0054.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Funny ferrets fumbled fumblingly, funny funny feathers.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_5683-32866-0007.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_5683-32866-0007.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_5683-32866-0007.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">Confused crabs confusedly cracked confused confused crab cakes.<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_prompt_6829-68769-0022.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle_6829-68769-0022.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/hard_melle-r2_6829-68769-0022.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table><\/p>\n\n\n\n\n\n<p>\n<table class=\"table table-hover pt-2\">\n\t\t\t<thead>\n\t\t\t<tr>\n\t\t\t\t<th style=\"text-align: center\">Mandarin Text<\/th>\n\t\t\t\t<th style=\"text-align: center\">Speaker Prompt<\/th>\n\t\t\t\t<th style=\"text-align: center\">MELLE<\/th>\n\t\t\t<\/tr>\n\t\t\t<\/thead>\n\t\t\t<tbody>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u5bf9\uff0c\u7eff\u8272\u7684\u8bdd\uff0c\u5b83\u5c31\u662f\uff0c\u55ef\uff0c\u4e0d\u7a7f\u5916\u5957\u7684\u8bdd\uff0c\u7a7f\u91cc\u9762\u7684\u886c\u8863\uff0c\u6211\u89c9\u5f97\u5f88\u597d\u770b\uff0c\u7136\u540e\u7684\u8bdd\uff0c\u5443\uff0c\u6df1\u7070\u8272\u7684\u8bdd\uff0c\u6211\u89c9\u5f97\u5c31\u662f\uff0c\u55ef\uff0c\u914d\u536b\u3001\u5916\u5957\u7684\u8bdd\u5c31\u662f\u8981\u597d\u770b\u4e00\u70b9\uff0c\u5c31\u6709\u4e00\u70b9\u7ea0\u7ed3\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_6.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_6.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u8981\u8bf4\u522b\u4eba\u5404\u79cd\u5404\u79cd\u597d\uff0c\u5176\u5b9e\u8fd9\u79cd\u8bdd\u5462\uff0c\u4e0d\u4f20\u5728\u81ea\u5df1\u7684\u8033\u6735\u91cc\u7684\u8bdd\uff0c\u5c31\u89c9\u5f97\u65e0\u6240\u8c13\u3002\u4f46\u662f\u4f60\u771f\u6b63\u6709\u4eba\u7ed9\u4f60\u8bb2\u4e86\u4e4b\u540e\uff0c\u4f60\u53ef\u80fd\u5c31\u5fc3\u91cc\u8fd8\u662f\u591a\u591a\u5c11\u5c11\u4e0d\u8212\u670d\u7684\u4f60\u77e5\u9053\u5417\uff1f<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_1.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u5b83\uff0c\u5b83\u559c\u6b22\u5728\u90a3\u4e2a\u6bdb\u62d6\u978b\u4e0a\uff0c\u6211\u4e5f\u662f\uff0c\u6211\u4e5f\u662f\u9189\u4e86\uff0c\u800c\u4e14\u4e0d\uff0c\u6211\u4eec\u4e0d\u77e5\u9053\u600e\u4e48\u6307\u5bfc\u5b83\u5230\u90a3\u91cc\u4e0a\u5395\u6240\uff0c\u662f\u5f88\u5c34\u5c2c\u7684\u4e8b\u60c5\uff0c\u517b\u4e86\u534a\u5e74\u591a\u957f\u5f97\uff0c\u957f\u5f97\u957f\u5f97\u8d3c\u80a5\uff0c\u7136\u540e\uff0c\u540e\u6765\u5b9e\u5728\u517b\u4e0d\u4e86\uff0c\u7136\u540e\u5c31\u522b\u4eba\u4e5f\u4e0d\u60f3\u517b\uff0c\u6211\u4eec\u5c31\u662f\u9001\u90a3\u4e2a\u5bbf\u7ba1\u5927\u53d4\u4e86\uff0c\u4e0d\u77e5\u9053\u662f\u5403\u4e86\u8fd8\u662f\u600e\u4e48\u6837\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_9.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_9.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u5c31\u662f\uff0c\u5c31\u53ef\u80fd\u91cd\u5e86\u706b\u9505\u6211\u73b0\u5728\u6253\u4e2a\u6bd4\u65b9\u6765\u8bf4\uff0c\u4f60\u5728\u5f53\u5730\u53ef\u80fd\u968f\u4fbf\u9009\u4e00\u5bb6\u706b\u9505\uff0c\u6211\u89c9\u5f97\u90fd\u86ee\u597d\u5403\u7684\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_2.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_2.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u5bf9\uff0c\u7136\u540e\u4ed6\u8001\u4e86\u4e4b\u540e\uff0c\u611f\u89c9\u5c31\u6ca1\u6709\u4ec0\u4e48\u6bd4\u8f83\u597d\u7684\u4e86\uff0c\u5c31\u53bb\u5e74\u90a3\u4e2a\u559c\u5267\u7247\uff0c\u592a\u597d\u7b11\u4e86\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_3.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_3.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u55ef\uff0c\u8fd9\u5012\u6ca1\u6709\u8fc7\uff0c\u5c31\u8ba8\u538c\u8fd9\u4e2a\u5012\u6ca1\u6709\u8fc7\uff0c\u5c31\u5408\u773c\u7f18\u7684\u8fd9\u4e2a\u7684\u8bdd\uff0c\u662f\u771f\u7684\u662f\u6709\u8fc7\u3002\u5c31\u524d\u4e00\u4e24\u5e74\u7684\u561b\uff0c\u7136\u540e\u5728\u5de5\u4f5c\u5f53\u4e2d\u5462\u8ba4\u8bc6\u7684\u4e00\u4e2a\u670b\u53cb\uff0c\u7136\u540e\u5979\u6bd4\u6211\u5c0f\uff0c\u4f46\u662f\u6211\u611f\u89c9\u5979\u601d\u60f3\u8fd9\u4e9b\u65b9\u9762\u8fd8\u662f\u6bd4\u8f83\u6210\u719f\u7684\u561b\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_4.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_4.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u5bf9\u5f85\u4e00\u4e9b\u4e8b\u60c5\u5462\uff0c\u5c31\u5305\u62ec\u8bf4\u6709\u7684\u65f6\u5019\u53ef\u80fd\u5f00\u5b8c\u4f1a\u7684\u65f6\u5019\uff0c\u5de5\u4f5c\u5f53\u4e2d\u9047\u5230\u4e00\u4e9b\u95ee\u9898\u7684\u65f6\u5019\uff0c\u6211\u4eec\u4fe9\u7684\u89c2\u70b9\u60f3\u6cd5\u5b8c\u5168\u662f\u4e00\u6837\u7684\uff0c\u6240\u4ee5\u8bf4<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_5.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_5.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u4f1a\u4e0d\u4f1a\u8fd9\u6837\uff0c\u4f46\u662f\u4f46\u662f\u5c31\u662f\u53ef\u80fd\u4ed6\u5fc3\u91cc\u90a3\u4e2a\u90a3\u4e2a\u610f\u96be\u5e73\u5427\uff0c\u4ed6\u4ed6\u7684\u5fc3\u91cc\u4f46\u662f\u611f\u89c9\u5e73\u4e0d\u4e0b\u53bb\uff0c\u59cb\u7ec8\u8fc7\u4e0d\u4e86\u90a3\u4e2a\u574e\uff0c\u5c31\u89c9\u5f97\uff0c\u6211\u8ffd\u4e86\u516d\u4e03\u5e74\uff0c\u600e\u4e48\u8fd8\u8ffd\u4e0d\u5230\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_7.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_7.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t\t<tr><td style=\"text-align: left;vertical-align:middle;width: 600px\">\u55ef\uff0c\u5bf9\uff0c\u4f46\u662f\u4ed6\u6211\u4eec\u6709\u4e9b\u670b\u53cb\uff0c\u4ed6\u5e76\u6ca1\u6709\u8c08\u8fc7\u4ec0\u4e48\u604b\u7231\uff0c\u4f46\u662f\u4ed6\uff0c\u5c31\u662f\u8bf4\u4e00\u4e9b\u4e1c\u897f\u611f\u89c9\u4ed6\u5c31\u662f\u4e13\u5bb6\u4e00\u6837\uff0c\u6211\u4e5f\u662f\u641e\u4e0d\u61c2\u8fd9\u6837\u7684\u4eba\u3002<\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_prompt_8.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<td style=\"text-align: center\"><figure><audio style=\"width: 140px\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2023\/06\/mandarin_melle_8.wav\" controls=\"controls\" preload=\"none\"><\/audio><\/figure><\/td>\n\t\t\t\t<\/tr>\n\t\t\t<\/tbody>\n\t\t\t<\/table>\t\t\t\n<\/p>\n\n\n\n\n\n<div class=\"container pt-5 mt-5 shadow p-5 mb-5 bg-white rounded\">\t\t\n\t<h2 id=\"Ethics-Statement\" style=\"text-align: center\">Ethics Statement<\/h2>\n\t<p>\n\tMELLE is purely a research project. Currently, we have no plans to incorporate MELLE into a product or expand access to the public. MELLE could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While MELLE can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that MELLE is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.\n\t<\/p>\n<\/div>\n\n\n","protected":false},"excerpt":{"rendered":"<p>A neural codec language model for speech synthesis We introduce a language modeling approach for text-to-speech synthesis (TTS). Specifically, we train a neural codec language model (called VALL-E) using discrete codes derived from an off-the-shelf neural audio codec model, and regard TTS as a conditional language modeling task rather than continuous signal regression as in [&hellip;]<\/p>\n","protected":false},"featured_media":947739,"template":"","meta":{"msr-url-field":"","msr-podcast-episode":"","msrModifiedDate":"","msrModifiedDateEnabled":false,"ep_exclude_from_search":false,"_classifai_error":"","footnotes":""},"research-area":[13556,243062],"msr-locale":[268875],"msr-impact-theme":[],"msr-pillar":[],"class_list":["post-947154","msr-project","type-msr-project","status-publish","has-post-thumbnail","hentry","msr-research-area-artificial-intelligence","msr-research-area-audio-acoustics","msr-locale-en_us","msr-archive-status-active"],"msr_project_start":"","related-publications":[1056759,1100703],"related-downloads":[],"related-videos":[],"related-groups":[],"related-events":[],"related-opportunities":[],"related-posts":[],"related-articles":[],"tab-content":[],"slides":[],"related-researchers":[{"type":"user_nicename","display_name":"Shujie Liu","user_id":33634,"people_section":"Section name 0","alias":"shujliu"},{"type":"guest","display_name":"Yanqing Liu","user_id":794366,"people_section":"Section name 0","alias":""},{"type":"guest","display_name":"Huaming Wang","user_id":959442,"people_section":"Section name 0","alias":""},{"type":"user_nicename","display_name":"Jinyu Li","user_id":32312,"people_section":"Section name 0","alias":"jinyli"},{"type":"guest","display_name":"Lei He","user_id":837280,"people_section":"Section name 0","alias":""},{"type":"user_nicename","display_name":"Yao Qian","user_id":34976,"people_section":"Section name 0","alias":"yaoqian"},{"type":"user_nicename","display_name":"Sheng Zhao","user_id":41137,"people_section":"Section name 0","alias":"szhao"},{"type":"user_nicename","display_name":"Furu Wei","user_id":31830,"people_section":"Section name 0","alias":"fuwei"},{"type":"user_nicename","display_name":"Yang Ou","user_id":37742,"people_section":"Section name 0","alias":"yaou"},{"type":"user_nicename","display_name":"Yan Xia","user_id":34972,"people_section":"Section name 0","alias":"yanxia"},{"type":"user_nicename","display_name":"Yu Liu","user_id":35030,"people_section":"Section name 0","alias":"yluiu"},{"type":"user_nicename","display_name":"Scarlett Li","user_id":37736,"people_section":"Section name 0","alias":"scarli"}],"msr_research_lab":[],"msr_impact_theme":[],"_links":{"self":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project\/947154","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project"}],"about":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/types\/msr-project"}],"version-history":[{"count":255,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project\/947154\/revisions"}],"predecessor-version":[{"id":1119288,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-project\/947154\/revisions\/1119288"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/media\/947739"}],"wp:attachment":[{"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/media?parent=947154"}],"wp:term":[{"taxonomy":"msr-research-area","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/research-area?post=947154"},{"taxonomy":"msr-locale","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-locale?post=947154"},{"taxonomy":"msr-impact-theme","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-impact-theme?post=947154"},{"taxonomy":"msr-pillar","embeddable":true,"href":"https:\/\/www.microsoft.com\/en-us\/research\/wp-json\/wp\/v2\/msr-pillar?post=947154"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}