ARXIV·
作者提出 ContextRL,一种上下文感知的强化学习方法,提升大语言模型在长程推理和多模态任务上的表现。该方法通过间接目标训练:模型需从两个高度相似的上下文中选出支持给定问答对的那个,从而获得奖励,促进细粒度的证据定位。通过条件过滤和生成式编辑,他们从编码智能体的执行轨迹构建了 1,000 对对比上下文数据,从多模态图像构建了 7,000 对。ContextRL 在 5 个长程基准测试上平均比标准 GRPO 提高 2.2%,在 12 个视觉问答基准上提高 1.8%。仅将相同对比数据作为标准示例的数据增强基线提升甚微,证实性能增益来自上下文选择目标而非额外数据。
ARXIV··重点
该论文提出几何动作模型(GAM),一种语言条件下的操控策略,通过重构预训练的几何基础模型(GFM)显式引入3D几何信息以处理需要精细接触的任务。GAM在GFM的中间层进行拆分,浅层用于观测编码,并插入一个因果未来预测器,该预测器根据语言指令、本体感知和动作历史预测未来的隐式令牌。预测的令牌随后流经剩余的GFM模块,使得同一骨干网络能以最小的架构改动同时输出未来几何场景和机器人动作。在仿真和真实机器人基准测试中,GAM在准确性、鲁棒性、速度和模型轻量化方面均优于现有的基础模型规模方法。
ARXIV··重点
在线强化学习微调预训练的视觉语言动作策略时,稀疏的二元回合结果会混淆可行性与效率,无法提供逐步监督,并且简单地将回合结果分配给含有人工干预的片段会导致错误的信用分配。本文提出分层优势加权行为克隆(HABC),分别训练可行性和效率的评估头,并通过状态自适应门控合并单步优势,在成功不确定时优先关注可行性,仅当可行性高时才转向效率;干预感知的信用分配仅将结果标签赋予自主执行片段,防止监督泄漏。在三个接触密集型双手灵巧操作的真实机器人任务上,HABC将监督微调基线的成功率从36%、44%和12%分别提升至92%、88%和38%。
ARXIV··重点
该论文提出MetaSyn数据集,包含442篇经专家整理的《自然》系列期刊荟萃分析,每篇均配有PI/ECO标准、14万篇PubMed检索语料库、验证过的相关研究及精心设计的干扰项。在检索-筛选-合成的完整流程中,对12种流程配置(9种检索增强生成方案和1种基于协议的智能体)进行了基准测试。尽管在K=200时检索召回率达90.9%,但没有任何系统对真实纳入文献的召回率超过52.7%,暴露出关键的筛选瓶颈。当前大语言模型难以可靠区分符合PI/ECO标准的研究与主题相似但不符合标准的干扰文章。为定位故障点,作者建议使用分阶段归因指标,而非单一的端到端评分。
ARXIV·
DeepRubric 是一个数据构建框架,它反转了通常为查询生成评分标准的流程。该框架先从种子主题出发,递归扩展证据支撑的子问题,构建一棵证据树;随后以树的叶子节点作为原子化、可验证的评估目标,合成对齐的查询-评分标准对。由此确保奖励信号准确评估查询所要求的信息。作者利用 9K 条此类样本,以基于评分标准的 GRPO 训练了 DeepRubric-8B,使其在三个基准上的性能与之前开源的最佳深度研究模型持平,而所需的强化学习 GPU 小时仅约 1/13。
ARXIV··重点
本文提出TokenPilot,一个面向长时LLM智能体的双粒度上下文管理框架,在保持提示缓存连续性的同时降低token占用。它包含一套全局的摄入感知压缩机制以稳定前缀并滤除环境噪声,以及一套局部的生命周期感知驱逐策略,仅在任务相关性失效时清理内容段。在PinchBench和Claw-Eval基准上,TokenPilot在隔离模式下分别将成本降低了61%和56%,在连续模式下降低61%和87%,且性能与先前系统相当。该方法已集成至开源库LightMem2。