April 15, 2018 – April 20, 2018

Microsoft Research @ ICASSP 2018

Location: Calgary, Alberta

Developing Far-Field Speaker System Via Teacher-Student Learning

Jinyu Li, Rui Zhao, Zhuo Chen, Changliang Liu, Xiong Xiao, Guoli Ye, Yifan Gong

Advancing Connectionist Temporal Classification with Attention Modeling

Amit Das, Jinyu Li, Rui Zhao, Yifan Gong

Multi-Microphone Neural Speech Separation for Far-Field Multi-Talker Speech Recognition

Takuya Yoshioka, Hakan Erdogan, Zhuo Chen, Fil Alleva

Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition

Zhehuai Chen, Jasha Droppo

Single Channel Speech Separation with Constrained Utterance Level Permutation Invariant Training Using GRID LSTM

Chenglin Xu, Wei Rao, Xiong Xiao, Eng Siong Chng, Haizhou Li

A Study of All-Convolutional Encoders for Connectionist Temporal Classification

Kalpesh Krishna, Liang Lu, Kevin Gimpel, Karen Livescu

Adversarial Teacher-Student Learning for Unsupervised Domain Adaptation

Zhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang (Fred) Juang

Speaker-Invariant Training via Adversarial Learning

Zhong Meng, Jinyu Li, Zhuo Chen, Yong Zhao, Vadim Mazalov, Yifan Gong, Biing-Hwang (Fred) Juang

Exploring Practical Aspects of Neural Mask-Based Beamforming for Far-Field Speech Recognition

Christoph Boeddeker, Hakan Erdogan, Takuya Yoshioka, Reinhold Haeb-Umbach

Efficient Integration of Fixed Beamformers and Speach Separation Networks for Multi-Channel Far-Field Speech Separation

Zhuo Chen, Takuya Yoshioka, Xiong Xiao, Jinyu Li, Mike Seltzer, Yifan Gong

Improving End-of-Turn Detection in Spoken Dialogues by Detecting Speaker Intentions as a Secondary Task

Zakaria Aldeneh, Dimitrios Dimitriadis, Emily Mower Provost

Exploring sequential characteristics in speaker bottleneck feature for text-dependent speaker verification

Liping Chen, Yong Zhao, Shi-Xiong Zhang, Jie Li, Guoli Ye, Frank Soong

Adversarial Advantage Actor-Critic Model for Task-Completion Dialogue Policy Learning

Baolin Peng, Xiujun Li, Jianfeng Gao, Jingjing Liu, Yun-Nung Chen, Kam-Fai Wong

Limiting Numerical Precision of Neural Networks to Achieve Real-Time Voice Activity Detection

Jong Hwan Ko, Josh Fromm, Matthai Philipose, Ivan Tashev, Shuayb Zarar

Towards Language-Universal End-to-End Speech Recognition

Suyoun Kim, Michael Seltzer

Advancing Acoustic-to-Word CTC Model

Jinyu Li, Guoli Ye, Amit Das, Rui Zhao, Yifan Gong

Constrained Convolutional-Recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy

Rasool Fakoor, Xiaodong He, Ivan Tashev, Shuayb Zarar

A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-Channel Speech Enhancement and Recognition

Yanhui Tu, Ivan Tashev, Shuayb Zarar, Chin-Hui Lee

Deep Learning Based Speech Beamforming

Kaizhi Qian, Yang Zhang, Shiyu Chang, Xuesong Yang, Dinei Florencio, Mark Hasegawa-Johnson

Convolutional-Recurrent Neural Networks for Speech Enhancement

Han Zhao, Shuayb Zarar, Ivan Tashev, Chin-Hui Lee

Neural Sequential Malware Detection with Parameters

Rakshit Agrawal, Jack Stokes, Mady Marinescu, Karthik Selvaraj

Spatial Audio Feature Discovery with Convolutional Neural Networks

Etienne Thuillier, Hannes Gamper, Ivan Tashev

The Microsoft 2017 Conversational Speech Recognition System

Wayne Xiong, Lingfeng Wu, Fil Alleva, Jasha Droppo, Xuedong Huang, Andreas Stolcke

Domain and Speaker Adaptation for Cortana Speech Recognition

Yong Zhao, Jinyu Li, Shixiong Zhang, Liping Chen, Yifan Gong

Augmented Data and Improved Noise Residual-Based CNN for Printer Source Identification

Sharad Joshi, Mohit Lamba, Vivek Goyal, Nitin Khanna

Robust Detection of Epileptic Seizures Using Deep Neural Networks

Ramy Hussein, Hamid Palangi, Z. Jane Wang, Rabab Ward