Publications

Full publication list on Google Scholar

* Equal contribution
† Corresponding author
‡ Project Lead / Mentor

Preprint

Touch-R1: Reinforcing Touch Reasoning in MLLMs

Yingxin Lai, Yafei Zhou, Fucai Zhu, Siyu Zhu, Weihao Yuan†
Arxiv, 2026

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

Yichi Zhang*, Weihao Yuan*‡, Yizhuo Zhang, Xidong Zhang, Jia Wan
Arxiv, 2026

3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training

Jiaxin Shi, Xidong Zhang, Fucai Zhu, Zhe Li, Siyu Zhu, Weihao Yuan†
Arxiv, 2026

ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation

Fan Yang, Heyuan Li, Peihao Li, Weihao Yuan, Lingteng Qiu, Chaoyue Song, Cheng Chen, Yisheng He, Shifeng Zhang, Xiaoguang Han, Steven Hoi, Guosheng Lin
Arxiv, 2025

Paper | Project

OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression

Zhe Li, Weihao Yuan†, Weichao Shen, Siyu Zhu, Zilong Dong, Chang Xu†
Arxiv, 2025

PanoLAM: Large Avatar Model for Gaussian Full-Head Synthesis from One-shot Unposed Image

Peng Li, Yisheng He, Yingdong Hu, Yuan Dong, Weihao Yuan, Yuan Liu, Siyu Zhu, Gang Cheng, Zilong Dong, Yike Guo
Arxiv, 2025

Paper | Project

LHM++: An Efficient Large Human Reconstruction Model for Pose-free Images to 3D

Lingteng Qiu, Peihao Li, Heyuan Li, Qi Zuo, Xiaodong Gu, Yuan Dong, Weihao Yuan, Rui Peng, Siyu Zhu, Xiaoguang Han, Guanying Chen, Zilong Dong
Arxiv, 2025

Paper | Project | Code

MulSMo: Multimodal Stylized Motion Generation by Bidirectional Control Flow

Zhe Li, Yisheng He, Lei Zhong, Weichao Shen, Qi Zuo, Lingteng Qiu, Zilong Dong, Laurence Tianruo Yang, Weihao Yuan†
Arxiv, 2024

Conference Papers

Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos

Yingdong Hu, Yisheng He, Jinnan Chen, Weihao Yuan, Kejie Qiu, Zehong Lin, Siyu Zhu, Zilong Dong, Jun Zhang
ECCV, 2026

Paper | Project | Code

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
ICCV, 2025

Paper | Project | Code

DicFace: Dirichlet-Constrained Variational Codebook Learning for Temporally Coherent Video Face Restoration

Yan Chen, Hanlin Shang, Ce Liu, Yuxuan Chen, Hui Li, Weihao Yuan, Hao Zhu, Zilong Dong, Siyu Zhu
ICCV, 2025

Highlight Presentation

LAM: Large Avatar Model for One-shot Animatable Gaussian Head

Yisheng He, Xiaodong Gu, Xiaodan Ye, Chao Xu, Zhengyi Zhao, Yuan Dong, Weihao Yuan†, Zilong Dong, Liefeng Bo
SIGGRAPH, 2025

Paper | Project | Code

Motions as Queries: One-Stage Multi-Person Holistic Human Motion Capture

Kenkun Liu*, Yurong Fu*, Weihao Yuan*, Jing Lin, Peihao Li, Xiaodong Gu, Lingteng Qiu, Haoqian Wang, Zilong Dong, Xiaoguang Han
CVPR, 2025

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

Lingteng Qiu, Shenhao Zhu, Qi Zuo, Xiaodong Gu, Yuan Dong, Junfei Zhang, Chao Xu, Zhe Li, Weihao Yuan, Liefeng Bo, Guanying Chen, Zilong Dong
CVPR, 2025

Paper | Project | Code

LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning

Zhe Li*, Weihao Yuan*, Yisheng He, Lingteng Qiu, Shenhao Zhu, Xiaodong Gu, Weichao Shen, Yuan Dong, Zilong Dong, Laurence T. Yang
ICLR, 2025

Paper | Project | Code

MVImgNet2.0: A Larger-scale Dataset of Multi-view Images

Xiaoguang Han*, Yushuang Wu*, Luyue Shi*, Haolin Liu*, Hongjie Liao, Lingteng Qiu, Weihao Yuan‡, Xiaodong Gu, Zilong Dong, Shuguang Cui
SIGGRAPH Asia, 2024

Paper | Project | Code

MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling

Weihao Yuan, Yisheng He, Weichao Shen, Yuan Dong, Xiaodong Gu, Zilong Dong, Liefeng Bo, Qixing Huang
NeurIPS, 2024

Paper | Project | Code

Gaussian-Informed Continuum for Physical Property Identification and Simulation

Junhao Cai*, Yuji Yang*, Weihao Yuan†, Yisheng He, Zilong Dong, Liefeng Bo, Hui Cheng, Qifeng Chen
NeurIPS, 2024

Oral Presentation, Top 0.39%, 61/15671

Paper | Project | Code

High-Fidelity 3D Textured Shapes Generation by Sparse Encoding and Adversarial Decoding

Qi Zuo, Xiaodong Gu, Yuan Dong, Zhengyi Zhao, Weihao Yuan, Lingteng Qiu, Liefeng Bo, Zilong Dong
ECCV, 2024

Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition

Yisheng He, Weihao Yuan†, Siyu Zhu, Zilong Dong, Liefeng Bo, Qixing Huang
ECCV, 2024

Paper | Project

An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes Using Pre-Trained Text-2-Image Models

Zhengyi Zhao, Chen Song, Xiaodong Gu, Yuan Dong, Qi Zuo, Weihao Yuan, Liefeng Bo, Zilong Dong, Qixing Huang
ECCV, 2024

Paper | Project

RichDreamer: A Generalizable Normal-Depth Diffusion Model for Detail Richness in Text-to-3D

Lingteng Qiu, Guanying Chen, Xiaodong Gu, Qi Zuo, Mutian Xu, Yushuang Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, Xiaoguang Han
CVPR, 2024

Highlight Presentation

Paper | Project | Code

IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images

Yushuang Wu, Luyue Shi, Junhao Cai, Weihao Yuan‡, Lingteng Qiu, Zilong Dong, Liefeng Bo, Shuguang Cui, Xiaoguang Han
CVPR, 2024

Highlight Presentation

Paper | Project | Code

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors

Yuan Dong, Qi Zuo, Xiaodong Gu, Weihao Yuan, Zhengyi Zhao, Zilong Dong, Liefeng Bo, Qixing Huang
CVPR, 2024

Oral Presentation

Paper | Project

DIM-SLAM: Dense RGB SLAM With Neural Implicit Maps

Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan
ICLR, 2023

3D-Former: Monocular Scene Reconstruction with SDF 3D Transformers

Weihao Yuan, Xiaodong Gu, Heng Li, Zilong Dong, Siyu Zhu
ICLR, 2023

Paper | Project | Code

Cluster Contrast for Unsupervised Person Re-Identification

Zuozhuo Dai, Guangyuan Wang, Weihao Yuan, Siyu Zhu, Ping Tan
ACCV, 2022

Citation: 400+

RCP: Recurrent Closest Point for Scene Flow Estimation on 3D Point Clouds

Xiaodong Gu, Chengzhou Tang, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Ping Tan
CVPR, 2022

Oral Presentation

NeWCRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

Weihao Yuan, Xiaodong Gu, Zuozhuo Dai, Siyu Zhu, Ping Tan
CVPR, 2022

Rank 1st on the KITTI depth online benchmark from 14-10-2021 to 13-03-2022
Citation: 600+

Paper | Project | Code

Stereo Matching by Self-supervision of Multiscopic Vision

Weihao Yuan, Yazhan Zhang, Bingkun Wu, Michael Yu Wang, Qifeng Chen
IROS, 2021

Paper | Project | Code

Multi-Object Rearrangement with Monte Carlo Tree Search:A Case Study on Planar Nonprehensile Sorting

Haoran Song, Joshua A. Haustein, Weihao Yuan, Kaiyu Hang, Michael Yu Wang, Danica Kragic, Johannes A. Stork
IROS, 2020

Paper | Project

Self-supervised Object Tracking with Cycle-consistent Siamese Networks

Weihao Yuan, Michael Yu Wang, Qifeng Chen
IROS, 2020

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion

Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen
ICRA, 2020

Paper | Project | Code

Towards Learning to Detect and Predict Contact Events on Vision-based Tactile Sensors

Yazhan Zhang, Weihao Yuan, Zicheng Kan, Michael Yu Wang
CoRL, 2019

Oral Presentation

Reinforcement Learning in Topology-based Representation for Human Body Movement with Whole Arm Manipulation

Weihao Yuan, Kaiyu Hang, Haoran Song, Danica Kragic, Michael Yu Wang, Johannes A. Stork
ICRA, 2019

Rearrangement with Nonprehensile Manipulation Using Deep Reinforcement Learning

Weihao Yuan, Johannes Andreas Stork, Danica Kragic, Michael Yu Wang, Kaiyu Hang
ICRA, 2018

Journal Papers

MVImgNet2.0: A Larger-scale Dataset of Multi-view Images

Xiaoguang Han*, Yushuang Wu*, Luyue Shi*, Haolin Liu*, Hongjie Liao, Lingteng Qiu, Weihao Yuan‡, Xiaodong Gu, Zilong Dong, Shuguang Cui
Transactions on Graphics (TOG), 2024

Paper | Project | Code

OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation

Junhao Cai*, Yisheng He*, Weihao Yuan†, Siyu Zhu, Zilong Dong, Liefeng Bo, Qifeng Chen
Robotics and Automation Letters (RA-L), 2024

Paper | Project | Code

DRO: Deep Recurrent Optimizer for Video to Depth

Xiaodong Gu*, Weihao Yuan*†, Zuozhuo Dai, Chengzhou Tang, Siyu Zhu, Ping Tan
Robotics and Automation Letters (RA-L), 2023

MFuseNet: Robust Depth Estimation with Learned Multiscopic Fusion

Weihao Yuan, Rui Fan, Michael Yu Wang, Qifeng Chen
Robotics and Automation Letters (RA-L), 2020

Paper | Project | Code

End-to-End Nonprehensile Rearrangement with Deep Reinforcement Learning and Simulation-to-Reality Transfer

Weihao Yuan, Kaiyu Hang, Danica Kragic, Michael Yu Wang, Johannes A. Stork
Robotics and Autonomous Systems (RAS), 2019

Others

VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model

Qi Zuo, Xiaodong Gu, Lingteng Qiu, Yuan Dong, Zhengyi Zhao, Weihao Yuan, Rui Peng, Siyu Zhu, Zilong Dong, Liefeng Bo, Qixing Huang
Arxiv, 2024

Paper | Project | Code

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Minglin Chen, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
Arxiv, 2024

Technical Reports

Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions

Chao He, Jianqiang Ren, Yuan Dong, Jianjing Xiang, Xiejie Shen, Weihao Yuan, Liefeng Bo
Arxiv, 2025

Paper | Project | Code