Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

79 条内容

ARXIV2026年6月15日

Context-Aware RL for Agentic and Multimodal LLMs

作者提出 ContextRL，一种上下文感知的强化学习方法，提升大语言模型在长程推理和多模态任务上的表现。该方法通过间接目标训练：模型需从两个高度相似的上下文中选出支持给定问答对的那个，从而获得奖励，促进细粒度的证据定位。通过条件过滤和生成式编辑，他们从编码智能体的执行轨迹构建了 1,000 对对比上下文数据，从多模态图像构建了 7,000 对。ContextRL 在 5 个长程基准测试上平均比标准 GRPO 提高 2.2%，在 12 个视觉问答基准上提高 1.8%。仅将相同对比数据作为标准示例的数据增强基线提升甚微，证实性能增益来自上下文选择目标而非额外数据。

ARXIV2026年6月15日重点

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

该论文提出MetaSyn数据集，包含442篇经专家整理的《自然》系列期刊荟萃分析，每篇均配有PI/ECO标准、14万篇PubMed检索语料库、验证过的相关研究及精心设计的干扰项。在检索-筛选-合成的完整流程中，对12种流程配置（9种检索增强生成方案和1种基于协议的智能体）进行了基准测试。尽管在K=200时检索召回率达90.9%，但没有任何系统对真实纳入文献的召回率超过52.7%，暴露出关键的筛选瓶颈。当前大语言模型难以可靠区分符合PI/ECO标准的研究与主题相似但不符合标准的干扰文章。为定位故障点，作者建议使用分阶段归因指标，而非单一的端到端评分。

ARXIV2026年6月15日重点

过滤噪音，保留 AI 信号。

Context-Aware RL for Agentic and Multimodal LLMs

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

KVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing

DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents

ExpRL: Exploratory RL for LLM Mid-Training

TokenPilot: Cache-Efficient Context Management for LLM Agents