论文来源: ARXIV重要度: 4/5
本文提出检索增强的强化微调(RA-RFT),一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器,使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示,在可验证的结果奖励下对策略模型进行强化学习微调,使其学会利用推理轨迹。分析表明,推理感知检索能挖掘互补的解题策略,为不同问题提供独特的推理支架。在AIME 2025基准上,RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点,表明推理感知检索是与奖励设计或训练课程正交的改进维度。
论文来源: ARXIV重要度: 4/5
研究人员在76项已发表的社会与行为科学研究上评估了一个LLM流水线,这些研究均带有预定义结论。排除7项LLM无法生成有效效应量估计的研究,该流水线在剩余41%的研究中以±0.05 Cohen's d的容差恢复了原始效应量。它在96%的案例中得出了与原始研究相同的定性结论,优于人类再分析者34%的效应量恢复率和74%的结论一致性。这些结果表明LLM能够自动化并扩展可重复性评估,为系统性审核实证结果奠定了基础。
论文来源: ARXIV重要度: 3/5
大型语言模型训练数据筛选需要数据归因方法来确定单个样本如何影响模型输出。传统影响函数虽然有效,但处理速度慢、内存开销大,难以大规模应用。本文提出Influcoder,将解码器模型的梯度影响排序信息蒸馏到一个专用编码器中,从而实现快速、低成本的大规模数据归因。
论文来源: ARXIV重要度: 4/5
现有工具增强的大模型代理使用逐步原子工具调用,导致执行粒度不匹配,暴露低层数据流并浪费上下文。HyperTool提出统一MCP风格工具接口,代理以代码块形式调用,可在内部调用多个工具、处理返回值并本地传递中间结果,将确定性子程序折叠为一次外部调用。系统通过跨工具组合任务合成轨迹并在真实MCP环境中验证进行训练。在MCP-Universe基准上,HyperTool将Qwen3-32B的平均准确率从15.69%提升至35.29%,Qwen3-8B从9.93%提升至33.33%,并超过GPT-OSS和Kimi-k2.5。这表明改变工具执行粒度能大幅提升多步工具使用能力。
论文来源: ARXIV重要度: 4/5
本文提出EurekAgent,一个面向指标驱动的自主科学发现的环境工程化智能体系统。作者指出,关键瓶颈正从设计智能体工作流转向工程化智能体所处的环境,以放大有益行为(如开放式探索、系统化物件管理、智能体协作)并抑制有害行为(如奖励作弊、高摩擦人工监督)。EurekAgent从四个维度进行环境工程:权限工程实现有界执行与隔离评估,工件工程实现文件系统与Git协作,预算工程实现预算感知探索,以及人在回路工程便于人类监督与干预。该系统在多个数学、内核工程和机器学习任务上取得新的最先进结果,包括以不到11美元总API成本发现的一个新的26圆堆叠结果。作者已将代码与结果开源,并倡议将环境工程作为可靠自主科研智能体的核心研究方向。
论文来源: ARXIV