RL Theory

Wang Yue, Chen Wei, Liu Yuting, Ma Zhi-Ming, Liu Tie-Yan. Finite sample analysis of the GTD policy evaluation algorithms in Markov setting. NeurIPS, 2017

Zhou, Yichi, Shihong Song, Huishuai Zhang, Jun Zhu, Wei Chen, and Tie-Yan Liu. Regularized OFU: an Efficient UCB Estimator forNon-linear Contextual Bandit. arXiv preprint arXiv:2106.15128 (2021).