Yu Li

George Washington University, Washington, D.C. 2025.9–2029.5(expected)

Ph.D. in Electrical and Computer Engineering (GPA: 4.0/4.0)

Wuhan University, Hongyi Honor College, China 2021.9-2025.5

B.Eng. in Microelectronics Science and Technology (GPA: 3.87/4.0)

I am currently a first year Ph.D. candidate at GWU supervised by Prof. Tian Lan and work with Prof.Zhengling Qi.

Research Topics: LLM Post-Training • Agent Policy Learning • Generative AI

📄 CV
🧪 GitHub
🎓 Google Scholar
💼 LinkedIn

News

[07/2026] MomentKV is accepted to COLM 2026 🎉. See you in San Francisco.
[06/2026] I started serving as a reviewer for the TMLR.
[05/2026] I will join ByteDance as a Research Scientist Intern in San Jose from May to August 🚀.
[04/2026] T-STAR is accepted to ACL 2026 🎉. See you in San Diego.
[02/2026] CRAFT-LORA is accepted to CVPR 2026 🎉.
[01/2026] I passed my PhD qualifying exam in my first semester and am now a PhD candidate 🎓.
[01/2026] KG-SAM is accepted to ICASSP 2026 as an Oral Paper 🎉.

Publications

Preprint / Under Review

OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning

Yu Li, Rui Miao, Tian Lan, Zhengling Qi

Under review at NeurIPS 2026 · Paper

Bayesian value recursion for fine-grained, token-level credit assignment in LLM reasoning.

RLCredit AssignmentReasoning

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Yu Li, Rui Miao, Zhengling Qi, Tian Lan

Under review at NeurIPS 2026 · Paper · Code

Hierarchical RL framework with intrinsic skill evolution for scalable agent reasoning.

Hierarchical RLAgentSkill Learning

Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO

Yu Li, Tian Lan, Zhengling Qi

Under review at NeurIPS 2026 · Paper · Code

Bilateral context conditioning and reward-confidence correction to improve GRPO training.

GRPORLHFPost-training

InsPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization

Yu Li, Tian Lan, Zhengling Qi

Under review at NeurIPS 2026 · AI with Recursive Self-Improvement@ICLR 2026 (Poster) · Paper · Code

Preference optimization that leverages intrinsic self-reflection signals in pairwise data to improve LLM alignment.

DPOSimPOPreference Learning

Conferences

Prompted Information Bottlenecks: Rethinking Layer-Wise Information Allocation in Frozen Vision Transformers

Yuqi Li, Xi Xiao, Yunbei Zhang, Lin Zhao, Yu Li, Aiden Zhao, Tianyang Wang, Hao Xu, Yingli Tian

ACM MM 2026

Prompted information bottlenecks for layer-wise information allocation in frozen Vision Transformers.

Vision TransformerInformation BottleneckPrompt Learning

MomentKV: Closing the Directional Gap in KV Cache Eviction for Long-Context Inference

Yu Li, Binxu Li, Tian Lan

COLM 2026 · Paper

Direction-aware KV cache eviction that closes the directional gap for efficient long-context inference.

KV CacheLong-ContextEfficient Inference

Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization

Yu Li, Sizhe Tang, Tian Lan

ACL Findings 2026

Self-rectification and tree-based grafting for multi-turn agent policy optimization.

AgentMulti-turnPolicy Optimization

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Yu Li, Yujun Cai, Chi Zhang

CVPR 2026 · Paper · Code

Rank-constrained LoRA adaptation for content–style personalization in image generation.

Generative AIPersonalizationLoRA

ACDZero: MCTS Agent for Mastering Automated Cyber Defense

Yu Li*, Sizhe Tang*, Rongqian Chen, Fei Xu Yu, Guangyu Jiang, Mahdi Imani, Nathaniel D. Bastian, Tian Lan

(*:Equal contribution)

ICCN@INFOCOM 2026 · Paper · Code

Graph-embedding-guided MCTS planning for sample-efficient automated cyber defense.

Cyber DefenseMCTSGNN

KG-SAM: Injecting Anatomical Knowledge into Segment Anything Models via Conditional Random Fields

Yu Li, Chang Da, Xi Xiao

ICASSP 2026 · Oral · Paper

Knowledge-guided SAM with anatomical priors and CRF refinement for robust medical image segmentation.

Medical SegmentationSAMKnowledge GraphCRF

Calibrating and Rotating: A Unified Framework for Weight Conditioning in PEFT

Chang Da, Peng Xue, Yu Li, Yongxiang Liu, Pengxiang Xu, Shixun Zhang

AAAI 2026 · Paper · Code

A unified calibration+rotation weight-conditioning framework that improves PEFT performance and efficiency.

LLMs PEFTWeight Conditioning

Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer

Yu Li*, Chang Da*

(*:Equal contribution)

ICONIP 2024 · Paper · Code

TrOCR-based mixed-text OCR with efficient PEFT and an end-to-end evaluation pipeline.

OCRLoRA

Journals

Dual branch SAM-Transformer Fusion Network for Accurate Breast Ultrasound Image Segmentation

Y. Li, J. Huang et al.

Medical Physics, JCR Q1, 2025 · Paper · Code

Dual-branch SAM–Transformer fusion for accurate breast ultrasound image segmentation.

Ultrasound SegmentationSAMTransformer

SfMDiffusion: Self-supervised Monocular Depth Estimation in Endoscopy Based on Diffusion Models

Y. Li, D. Chang et al.

International Journal of Computer Assisted Radiology and Surgery, JCR Q2, 2025 · Paper · Code

Self-supervised monocular depth estimation for endoscopy using diffusion models with teacher-guided distillation.

Depth EstimationDiffusion ModelDistillation

Experiences

Mobile Intelligence Lab, George Washington University

Research Topic: Post-training, RL, Reasoning

Advisor: Prof. Tian Lan · Aug. 2025 – Present

Artificial General Intelligence Lab, Westlake University

Research Topic: Generative AI

Advisor: Prof. Chi Zhang · Mar. 2025 – Jul. 2025

Cyber-Physical Systems Lab, UC Irvine

Research Topic: Multimodal Uncertainty Fusion

Advisor: Prof. Mohammad Al Faruque · Jun. 2024 – Oct. 2024

Honors and Awards

ICML 2026 Gold Reviewer (Top Reviewers Recognition), 2026
Innova International Exchange Scholarship, Wuhan University, 2024
Innova Excellence Scholarship (Top 3%), Wuhan University, 2023, 2024
Academic Excellence Scholarship (Top 5%), Hongyi Honor College, 2022, 2023, 2024
First-Class Scholarship (Top 5%), Wuhan University, 2022, 2023, 2024
Patent: Energy-saving calculation method, CN116085952.

Academic Services

The peer review mechanism is breaking down, but conscientious peer review endures:

Conference Reviewer: NeurIPS’26, COLM’26, ACM MM’26, ICML’26, ICLR’26, AAAI’26, ICASSP’26
Journal Reviewer: TMLR, TPAMI, ToN, Neurocomputing

This website was stolen from my best friend CD.