ARXIV·
作者提出 ContextRL,一种上下文感知的强化学习方法,提升大语言模型在长程推理和多模态任务上的表现。该方法通过间接目标训练:模型需从两个高度相似的上下文中选出支持给定问答对的那个,从而获得奖励,促进细粒度的证据定位。通过条件过滤和生成式编辑,他们从编码智能体的执行轨迹构建了 1,000 对对比上下文数据,从多模态图像构建了 7,000 对。ContextRL 在 5 个长程基准测试上平均比标准 GRPO 提高 2.2%,在 12 个视觉问答基准上提高 1.8%。仅将相同对比数据作为标准示例的数据增强基线提升甚微,证实性能增益来自上下文选择目标而非额外数据。
ARXIV··重点
该论文提出MetaSyn数据集,包含442篇经专家整理的《自然》系列期刊荟萃分析,每篇均配有PI/ECO标准、14万篇PubMed检索语料库、验证过的相关研究及精心设计的干扰项。在检索-筛选-合成的完整流程中,对12种流程配置(9种检索增强生成方案和1种基于协议的智能体)进行了基准测试。尽管在K=200时检索召回率达90.9%,但没有任何系统对真实纳入文献的召回率超过52.7%,暴露出关键的筛选瓶颈。当前大语言模型难以可靠区分符合PI/ECO标准的研究与主题相似但不符合标准的干扰文章。为定位故障点,作者建议使用分阶段归因指标,而非单一的端到端评分。
ARXIV··重点
KVEraser 是一种学习型方法,用于长上下文大模型的后验上下文擦除,避免全量重计算。它仅将被擦除片段对应的 KV 状态替换为学习到的引导值,其余缓存保持不变。该方法采用两阶段训练:先通过通用跨度邻域抑制预训练,再针对下游任务微调。在 1K 至 32K 上下文长度的域内任务上,KVEraser 的擦除后性能几乎与全量重计算持平,但延迟仅增加 24%,而全量重计算增加 17.6 倍。该方法还可泛化到未见过的长文档问答任务(含误导性事实干扰项),在近似基线中表现最佳,且比全量重计算快 3–4 倍。
ARXIV·
DeepRubric 是一个数据构建框架,它反转了通常为查询生成评分标准的流程。该框架先从种子主题出发,递归扩展证据支撑的子问题,构建一棵证据树;随后以树的叶子节点作为原子化、可验证的评估目标,合成对齐的查询-评分标准对。由此确保奖励信号准确评估查询所要求的信息。作者利用 9K 条此类样本,以基于评分标准的 GRPO 训练了 DeepRubric-8B,使其在三个基准上的性能与之前开源的最佳深度研究模型持平,而所需的强化学习 GPU 小时仅约 1/13。
ARXIV··重点
ExpRL 提出了一种基于强化学习的中期训练方法,将人工编写的问答对作为奖励脚手架,隐藏参考解答,由 LLM 评判器比较采样的推理痕迹并给出密集的结果或过程奖励。该方法能强化部分进展和有用的推理行为,弥补稀疏最终答案奖励的不足。在挑战性数学任务上,ExpRL 作为后续稀疏奖励 RL 的初始化,优于监督微调、稀疏奖励 GRPO 和自我蒸馏。混合领域实验表明该方法可扩展到数学之外。
ARXIV··重点
本文提出TokenPilot,一个面向长时LLM智能体的双粒度上下文管理框架,在保持提示缓存连续性的同时降低token占用。它包含一套全局的摄入感知压缩机制以稳定前缀并滤除环境噪声,以及一套局部的生命周期感知驱逐策略,仅在任务相关性失效时清理内容段。在PinchBench和Claw-Eval基准上,TokenPilot在隔离模式下分别将成本降低了61%和56%,在连续模式下降低61%和87%,且性能与先前系统相当。该方法已集成至开源库LightMem2。