June 14, 2020 - June 19, 2020

Microsoft at CVPR 2020

Lieu: Virtual/Online

Tuesday, June 16

Poster 1.1 – 3D From a Single Image and Shape-From-X; Action and Behavior Recognition; Adversarial Learning | 10:00 – 12:00 PDT

Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction – #58 (opens in new tab)
Yana Hasson, Bugra Tekin (opens in new tab), Federica Bogo (opens in new tab), Ivan Laptev, Marc Pollefeys (opens in new tab), Cordelia Schmid
Video > (opens in new tab)

Self-Supervised Human Depth Estimation From Monocular Videos – #66 (opens in new tab)
Feitong Tan, Hao Zhu, Zhaopeng Cui, Siyu Zhu, Marc Pollefeys (opens in new tab), Ping Tan
Video > (opens in new tab)

Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning – #71 (opens in new tab)
Tianlong Chen, Sijia Liu, Shiyu Chang, Yu Cheng, Lisa Amini, Zhangyang Wang
Video > (opens in new tab)

Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas – #87 (opens in new tab)
Xiaohu Lu, Zuoyue Li, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys (opens in new tab), Rongjun Qin
Video > (opens in new tab)

Weakly-Supervised Action Localization by Generative Attention Modeling – #102 (opens in new tab)
Baifeng Shi, Qi Dai (opens in new tab), Yadong Mu, Jingdong Wang (opens in new tab)
Video > (opens in new tab)

Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition – #112 (opens in new tab)
Pengfei Zhang, Cuiling Lan (opens in new tab), Wenjun Zeng (opens in new tab), Junliang Xing, Jianru Xue, Nanning Zheng
Video > (opens in new tab)

Poster 1.2 – 3D From Multiview and Sensors; Computational Photography; Efficient Training and Inference Methods for Networks | 12:00 – 14:00 PDT

DIST: Rendering Deep Implicit Signed Distance Function With Differentiable Sphere Tracing – #77 (opens in new tab)
Shaohui Liu, Yinda Zhang, Songyou Peng, Boxin Shi, Marc Pollefeys (opens in new tab), Zhaopeng Cui
Video > (opens in new tab)

Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometric Approach – #95 (opens in new tab)
Zhe Zhang, Chunyu Wang (opens in new tab), Wenhu Qin, Wenjun Zeng (opens in new tab)
Video > (opens in new tab)

gDLS*: Generalized Pose-and-Scale Estimation Given Scale and Gravity Priors – #96 (opens in new tab)
Victor Fragoso (opens in new tab), Joseph Degol, Gang Hua
Video > (opens in new tab)

Poster 1.3 — 3D From a Single Image and Shape-From-X; 3D From Multiview and Sensors; Image Retrieval; Datasets and Evaluation; Low-Level and Physics-Based Vision | 14:00 – 16:00 PDT

Style Normalization and Restitution for Generalizable Person Re-identification – #69 (opens in new tab)
Xin Jin, Cuiling Lan (opens in new tab), Wenjun Zeng (opens in new tab), Zhibo Chen, Li Zhang
Video > (opens in new tab)

Relation-aware Global Attention for Person Re-identification – #73 (opens in new tab)
Zhizheng Zhang, Cuiling Lan (opens in new tab), Wenjun Zeng (opens in new tab), Xin Jin, Zhibo Chen
Video > (opens in new tab)

Single Image Reflection Removal through Cascaded Refinement – #110 (opens in new tab)
Chao Li, Yixiao Yang, Kun He, Stephen Lin (opens in new tab), John Hopcroft
Video > (opens in new tab)

Poster 1.4 — Scene Analysis and Understanding; Medical, Biological and Cell Microscopy; Transfer/Low-Shot/Semi/Unsupervised Learning | 16:00 – 18:00 PDT

Unsupervised Instance Segmentation in Microscopy Images via Panoptic Domain Adaptation and Task Re-Weighting – #55 (opens in new tab)
Dongnan Liu, Donghao Zhang, Yang Song, Fan Zhang, Lauren O’Donnell, Heng Huang, Mei Chen (opens in new tab), Weidong Cai
Video > (opens in new tab)

Reliable Weighted Optimal Transport for Unsupervised Domain Adaptation – #70 (opens in new tab)
Renjun Xu, Pelen Liu, Liyan Wang, Chao Chen, Jindong Wang (opens in new tab)
Video > (opens in new tab)

Wednesday, June 17

Poster 2.1 – 3D From Multiview and Sensors; Face, Gesture, and Body Pose; Image and Video Synthesis | 10:00 – 12:00 PDT

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation – #53 (opens in new tab)
Bowen Cheng, Bin Xiao, Jingdong Wang (opens in new tab), Honghui Shi, Thomas Huang, Lei Zhang (opens in new tab)
Video > (opens in new tab)

Learning Texture Transformer Network for Image Super-Resolution – #93 (opens in new tab)
Fuzhi Yang, Huan Yang (opens in new tab), Jianlong Fu (opens in new tab), Hongtao Lu, Baining Guo (opens in new tab)
Video > (opens in new tab)

Deep Shutter Unrolling Network – #108 (opens in new tab)
Peidong Liu, Zhaopeng Cui, Viktor Larsson, Marc Pollefeys (opens in new tab)
Video > (opens in new tab)

Poster 2.2 – Face, Gesture, and Body Pose; Motion and Tracking; Representation Learning | 12:00 – 14:00 PDT

A Transductive Approach for Video Object Segmentation – #84 (opens in new tab)
Zhirong Wu (opens in new tab), Yizhuo Zhang, Houwen Peng (opens in new tab), Stephen Lin (opens in new tab)
Video > (opens in new tab)

Poster 2.3 – Face, Gesture, and Body Pose; Motion and Tracking; Image and Video Synthesis; Nearal Generative Models; Optimization and Learning Methods | 14:00 – 16:00 PDT

Deep 3D Portrait from a Single Image – #36 (opens in new tab)
Sicheng Xu, Jiaolong Yang (opens in new tab), Dong Chen (opens in new tab), Fang Wen (opens in new tab), Yu Deng, Yunde Jia, Xin Tong (opens in new tab)
Video > (opens in new tab)

BachGAN: High-Resolution Image Synthesis from Salient Object Layout – #102 (opens in new tab)
Yandong Li, Yu Cheng, Zhe Gan, Licheng Yu, Liqiang Wang, Jingjing Liu (opens in new tab)
Video > (opens in new tab)

Thursday, June 18

Poster 3.1 — Recognition (Detection, Categorization); Video Analysis and Understanding; Vision + Language | 9:00 – 11:00 PDT

Rethinking Classification and Localization for Object Detection – #49 (opens in new tab)
Yue Wu, Yinpeng Chen (opens in new tab), Lu Yuan (opens in new tab), Zicheng Liu (opens in new tab), Lijuan Wang (opens in new tab), Hongzhi Li (opens in new tab), Yun Fu
Video > (opens in new tab)

Memory Enhanced Global-Local Aggregation for Video Object Detection – #64 (opens in new tab)
Yihong Chen, Yue Cao (opens in new tab), Han Hu (opens in new tab), Liwei Wang
Video > (opens in new tab)

Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re- identification – #71 (opens in new tab)
Zhizheng Zhang, Cuiling Lan (opens in new tab), Wenjun Zeng (opens in new tab), Zhibo Chen
Video > (opens in new tab)

Violin: A Large-Scale Dataset for Video-and-Language Inference – #120 (opens in new tab)
Jingzhou Liu, Wenhu Chen, Yu Cheng, Zhe Gan, Licheng Yu, Yiming Yang, Jingjing Liu (opens in new tab)
Video > (opens in new tab)

Poster 3.3 — Recognition (Detection, Categorization); Segmentation, Grouping and Shape; Vision Applications and Systems; Vision & Other Modalities; Transfer/Low-Shot/Semi/Unsupervised Learning | 15:00 – 17:00 PDT

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-Training – #96 (opens in new tab)
Weituo Hao, Chunyuan Li (opens in new tab), Xiujun Li (opens in new tab), Lawrence Carin Duke, Jianfeng Gao (opens in new tab)
Video > (opens in new tab)

MMTM: Multimodal Transfer Module for CNN Fusion – #111 (opens in new tab)
Hamid Vaezi Joze (opens in new tab), Amirreza Shaban, Michael Iuzzolino, Kazuhito Koishida (opens in new tab)
Video > (opens in new tab)

Poster 3.4 – Miscellaneous | 17:00 – 19:00 PDT

Density-Aware Graph for Deep Semi-Supervised Visual Recognition – #9 (opens in new tab)
Suichan Li, Bin Liu, Dongdong Chen, Qi Chu, Lu Yuan (opens in new tab), Nenghai Yu
Video > (opens in new tab)

PFCNN: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames – #27 (opens in new tab)
Yuqi Yang, Shilin Liu, Hao Pan (opens in new tab), Yang Liu (opens in new tab), Xin Tong (opens in new tab)
Video > (opens in new tab)

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation – #38 (opens in new tab)
Rongchang Xie, Chunyu Wang (opens in new tab), Yizhou Wang
Video > (opens in new tab)