Publications

Asymptotically Optimal Regret for Reinforcement Learning without Horizon Dependence RL Theory

Runlong Zhou*, Zihan Zhang*, Maryam Fazel, Simon S. Du

Visored: A Controlled-Natural-Language Prover for LLM-Generated Mathematics LLM

Xiyu Zhai, Xinyi Chen, Yiping Wang, Runlong Zhou, Liao Zhang, Simon S. Du

Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback RL Theory

Shulun Chen, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du

RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs RL LLM

Runlong Zhou*, Lefan Zhang*, Shang-Chen Wu*, Kelvin Zou*, Hanzhi Zhou, Ke Ye, Yihao Feng, Dong Yin, Alex Guillen Garcia, Dmytro Babych, Rohit Chatterjee, Matthew Hopkins, Xiang Kong, Chang Lan, Lezhi Li, Yiping Ma, Daniele Molinari, Senyu Tong, Yanchao Sun, Thomas Voice, Jianyu Wang, Chong Wang, Simon Wang, Floris Weers, Yechen Xu, Guolin Yin, Muyang Yu, Yi Zhang, Zheng Zhou, Danyang Zhuo, Ruoming Pang, Cheng Leong

RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments RL LLM

Zhiyuan Zeng*, Hamish Ivison*, Yiping Wang*, Lifan Yuan*, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi

ICML 2026

The Ramón Llull’s Thinking Machine for Automated Ideation LLM

Xinran Zhao, Boyuan Zheng*, Chenglei Si*, Haofei Yu*, Ken Ziyu Liu*, Runlong Zhou*, Ruochen Li*, Tong Chen*, Xiang Li*, Yiming Zhang*, Tongshuang Wu

Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs RL Theory

Shulun Chen, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du

NeurIPS 2025

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO RL Theory LLM

Ruizhe Shi*, Minhak Song*, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du

ICML 2026

CASCADE Your Datasets for Cross-Mode Knowledge Retrieval of Language Models LLM

Runlong Zhou, Yi Zhang

COLM 2025