李煜 (Yu Li)

乔治·华盛顿大学 (George Washington University), 华盛顿特区. 2025.9-2029.5(预计)

电子与计算机工程系 (ECE) 博士

武汉大学(Wuhan University) 弘毅学堂2021级

微电子科学与技术工学学士 (GPA: 3.87/4.0)

我目前是乔治·华盛顿大学一年级博士候选人，导师是 Tian Lan 教授，并与 Zhengling Qi 教授合作。

研究方向: LLM 后训练 • 智能体策略学习 • 生成式AI

📄 简历
🧪 GitHub
🎓 谷歌学术
💼 领英

近期动态 (News)

[06/2026] 开始担任 TMLR 审稿人。
[05/2026] 加入 ByteDance 担任研究科学家实习生，坐标圣何塞，5月至8月 🚀.
[04/2026] T-STAR 被 ACL 2026 接收 🎉. 圣地亚哥见！
[02/2026] CRAFT-LORA 被 CVPR 2026 接收 🎉. 6月丹佛见！
[01/2026] 我在第一学期就通过了博士资格考试！现在已成为博士候选人（PhD Candidate）🎓.
[01/2026] KG-SAM 被 ICASSP 2026 接收为 Oral Paper 🎉.

论文发表 (Publications)

预印本 / 在投 (Preprint / Under Review)

OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning

Yu Li, Rui Miao, Tian Lan, Zhengling Qi

投稿至 NeurIPS 2026 · 论文

基于贝叶斯价值递归的细粒度 token 级信用分配方法，用于 LLM 推理。

强化学习信用分配推理

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Yu Li, Rui Miao, Zhengling Qi, Tian Lan

投稿至 NeurIPS 2026 · 论文 · 代码

基于内在技能进化的层次化强化学习框架，提升智能体推理能力。

层次化 RL智能体技能学习

MomentKV: Closing the Directional Gap in KV Cache Eviction for Long-Context Inference

Yu Li, Binxu Li, Tian Lan

投稿至 COLM 2026 · 论文

方向感知的 KV 缓存淘汰方法，弥合方向性偏差，实现高效长上下文推理。

KV 缓存长上下文高效推理

Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO

Yu Li, Tian Lan, Zhengling Qi

投稿至 NeurIPS 2026 · 论文 · 代码

双边上下文条件化与奖励置信度校正，改进 GRPO 训练效果。

GRPORLHF后训练

InsPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization

Yu Li, Tian Lan, Zhengling Qi

投稿至 NeurIPS 2026 · AI with Recursive Self-Improvement@ICLR 2026 (Poster) · 论文 · 代码

从偏好对中挖掘内在"自我反思"信号，提升偏好优化与 LLM 对齐效果。

直接偏好优化简单偏好优化偏好学习

MultiRefine-V: Multi-Turn Reinforcement Learning for Enhancing Verilog Code Synthesis

Qiufeng Li, Yu Li, Shu Hong, Tian Lan, Weidong Cao

在投

多轮强化学习提升 Verilog 代码合成质量。

RLVR代码生成Verilog

会议论文 (Conferences)

Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization

Yu Li, Sizhe Tang, Tian Lan

ACL Findings 2026

自我纠正与树状嫁接方法，用于多轮智能体策略优化。

智能体多轮对话策略优化

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Yu Li, Yujun Cai, Chi Zhang

CVPR 2026 · 论文 · 代码

秩约束 LoRA 适配，实现内容-风格解耦与个性化图像生成。

生成式AI个性化生图LoRA

ACDZero: MCTS Agent for Mastering Automated Cyber Defense

Yu Li*, Sizhe Tang*, Rongqian Chen, Fei Xu Yu, Guangyu Jiang, Mahdi Imani, Nathaniel D. Bastian, Tian Lan

(*:Equal contribution)

ICCN@INFOCOM 2026 · 论文 · 代码

结合图表示学习的 MCTS 规划方法，用于样本高效的自动化网络防御。

网络防御MCTSGNN

KG-SAM: Injecting Anatomical Knowledge into Segment Anything Models via Conditional Random Fields

Yu Li, Chang Da, Xi Xiao

ICASSP 2026 · Oral · 论文

融合知识图谱解剖先验与 CRF 边界优化的知识引导 SAM 医学分割框架。

医学分割SAM知识图谱CRF

Calibrating and Rotating: A Unified Framework for Weight Conditioning in PEFT

Chang Da, Peng Xue, Yu Li, Yongxiang Liu, Pengxiang Xu, Shixun Zhang

AAAI 2026 · 论文 · 代码

统一"校准 + 旋转"的权重条件化策略，提升 PEFT 性能与训练/推理效率。

LLMs PEFT权重条件化

Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer

Yu Li*, Chang Da*

(*:Equal contribution)

ICONIP 2024 · 论文 · 代码

基于 TrOCR + PEFT 的混合文本识别方法与实用评估流程。

OCRLoRA

期刊论文 (Journals)

Dual branch SAM-Transformer Fusion Network for Accurate Breast Ultrasound Image Segmentation

Y. Li, J. Huang et al.

Medical Physics, JCR Q1, 2025 · 论文 · 代码

双分支 SAM–Transformer 融合网络，用于高精度乳腺超声分割。

超声分割SAMTransformer

SfMDiffusion: Self-supervised Monocular Depth Estimation in Endoscopy Based on Diffusion Models

Y. Li, D. Chang et al.

International Journal of Computer Assisted Radiology and Surgery, JCR Q2, 2025 · 论文 · 代码

面向内窥镜场景的自监督单目深度估计：扩散模型结合教师引导蒸馏。

深度估计扩散模型知识蒸馏

科研经历 (Experiences)

乔治·华盛顿大学, 移动智能实验室

研究课题: 训练后优化, 强化学习, 推理

导师: Prof. Tian Lan · 2025年8月 – 至今

西湖大学, 人工通用智能实验室

研究课题: 生成式AI

导师: Prof. Chi Zhang · 2025年3月 – 2025年7月

加州大学尔湾分校, 信息物理系统实验室

研究课题: 多模态不确定性融合

导师: Prof. Mohammad Al Faruque · 2024年6月 – 2024年10月

荣誉奖项 (Honors and Awards)

ICML 2026 金牌审稿人 (Top Reviewers Recognition)，2026
英诺国际交流奖学金，武汉大学，2024
英诺卓越奖学金（Top 3%），武汉大学，2023，2024
学术优秀奖学金（Top 5%），弘毅学堂，2022，2023，2024
甲等奖学金（Top 5%），武汉大学，2022，2023，2024
专利: 一种节能计算方法, CN116085952.

学术服务 (Academic Services)

审稿机制正在崩坏，但认真的审稿仍在继续：

会议审稿人: NeurIPS’26, COLM’26, ACM MM’26, ICML’26, ICLR’26, AAAI’26, ICASSP’26
期刊审稿人: TMLR, TPAMI, ToN, Neurocomputing

这个网站模版是从我最好的朋友那里偷来的。