Chuofan Ma

Chuofan Ma (马逴凡)

I'm a Ph.D. student from CVMI Lab, The University of Hong Kong (HKU), under the supervision of Prof. Xiaojuan Qi. Before that, I obtained my bachelor degree in computer science from HKU.

My research interest primarily lies in open-world visual intelligence and multi-modal foundation models. Please feel free to drop me an email if you are interested in what I do and seek for possible collaborations.

Email / Google Scholar / Github

Research

UniTok: A Unified Tokenizer for Visual Generation and Understanding
Chuofan Ma, Yi Jiang, Junfeng Wu, Jihan Yang, Xin Yu,
Zehuan Yuan, Bingyue Peng, Xiaojuan Qi
Conference on Neural Information Processing Systems (NeurIPS) (Spotlight), 2025
Paper / Code / Page

Liquid: Language Models are Scalable and Unified Multi-modal Generators
Junfeng Wu, Yi Jiang, Chuofan Ma, Yuliang Liu, Hengshuang Zhao,
Zehuan Yuan, Song Bai, Xiang Bai
arxiv preprint, Dec, 2024
Paper / Code / Page

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
Conference on Neural Information Processing Systems (NeurIPS), 2025
Paper

Learning from Neighbors: Category Extrapolation for Long-Tail Learning
Shizhen Zhao, Xin Wen, Jiahui Liu, Chuofan Ma, Chunfeng Yuan, Xiaojuan Qi
Conference on Computer Vision and Pattern Recognition (CVPR), 2025
Paper

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
European Conference on Computer Vision (ECCV), 2024
Paper / Code / Page

CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary Object Detection
Chuofan Ma, Yi Jiang, Xin Wen, Zehuan Yuan, Xiaojuan Qi
Conference on Neural Information Processing Systems (NeurIPS), 2023
Paper / Code / Page

Recognize Any Regions
Haosen Yang, Chuofan Ma, Bin Wen, Yi Jiang, Zehuan Yuan, Xiatian Zhu
Conference on Neural Information Processing Systems (NeurIPS), 2024
Paper / Code

EGC: Image Generation and Classification via a Diffusion Energy-Based Model
Qiushan Guo, Chuofan Ma, Yi Jiang, Zehuan Yuan, Yizhou Yu, Ping Luo
International Conference on Computer Vision (ICCV), 2023
Paper / Code / Page

Rethinking Resolution in the Context of Efficient Video Recognition
Chuofan Ma, Qiushan Guo, Yi Jiang, Ping Luo, Zehuan Yuan, Xiaojuan Qi
Conference on Neural Information Processing Systems (NeurIPS), 2022
Paper / Code

Website template from Jon Barron