论文来源: ARXIV重要度: 4/5
本文推出了EvoArena评测基准,模拟终端、软件和社交领域中渐进式环境变化来测试LLM代理。现有代理在EvoArena上平均准确率仅为39.6%。作者提出EvoMem,一种基于补丁的记忆范式,以结构化更新历史记录环境演化,使得代理能通过记忆变化推理环境动态。EvoMem在EvoArena上带来1.5个百分点的绝对提升,同时在GAIA和LoCoMo基准上分别提高了6.1和4.8个百分点。在需要连续完成多个相关子任务的链式任务中,准确率提升3.7个百分点。机理分析表明EvoMem能更完整地捕获不断变化的环境状态。
论文来源: ARXIV重要度: 4/5
SpatialClaw是一个无需训练的框架,采用代码执行作为动作接口,通过维护一个有状态的Python内核,预加载输入帧以及感知与几何原语,让基于VLM的智能体根据过往输出逐步编写可执行单元。在20个涵盖静态与动态的3D/4D空间推理基准上,平均准确率达到59.9%,较此前的最佳空间智能体提升11.2个百分点。在六个来自两个模型家族的VLM骨干上均获一致增益,无需针对基准或模型进行特化调整。结果表明,灵活的迭代式代码接口在开放式空间任务上显著优于单次执行或结构化工具调用的设计。
论文来源: ARXIV重要度: 4/5
本文提出Agents-K1,一条端到端管线,可将原始文档转化为智能体原生的科学知识图谱。该管线整合了三个组件:一个多模态解析器,采用五模块模式从全文捕获实体、多模态证据、引用及带类型的实体间关系;一个4B参数的信息抽取骨干网络,通过GRPO和基于规则的奖励训练;一个GraphAnything命令行界面,统一网络搜索、多模态图检索和跨文档遍历。作者处理了六个学科领域的246万篇科学论文,构建了Scholar-KG,并发布了其中100万篇论文的子集。实验表明,Agents-K1在科学信息抽取、知识图谱构建和多跳科学推理上均取得优越性能。该管线可扩展至通用领域语料和符合模式的数据合成。
论文来源: ARXIV重要度: 4/5
现有工具增强的大模型代理使用逐步原子工具调用,导致执行粒度不匹配,暴露低层数据流并浪费上下文。HyperTool提出统一MCP风格工具接口,代理以代码块形式调用,可在内部调用多个工具、处理返回值并本地传递中间结果,将确定性子程序折叠为一次外部调用。系统通过跨工具组合任务合成轨迹并在真实MCP环境中验证进行训练。在MCP-Universe基准上,HyperTool将Qwen3-32B的平均准确率从15.69%提升至35.29%,Qwen3-8B从9.93%提升至33.33%,并超过GPT-OSS和Kimi-k2.5。这表明改变工具执行粒度能大幅提升多步工具使用能力。
论文来源: ARXIV重要度: 4/5
本文提出EurekAgent,一个面向指标驱动的自主科学发现的环境工程化智能体系统。作者指出,关键瓶颈正从设计智能体工作流转向工程化智能体所处的环境,以放大有益行为(如开放式探索、系统化物件管理、智能体协作)并抑制有害行为(如奖励作弊、高摩擦人工监督)。EurekAgent从四个维度进行环境工程:权限工程实现有界执行与隔离评估,工件工程实现文件系统与Git协作,预算工程实现预算感知探索,以及人在回路工程便于人类监督与干预。该系统在多个数学、内核工程和机器学习任务上取得新的最先进结果,包括以不到11美元总API成本发现的一个新的26圆堆叠结果。作者已将代码与结果开源,并倡议将环境工程作为可靠自主科研智能体的核心研究方向。