论文来源: ARXIV重要度: 4/5
本文推出了EvoArena评测基准,模拟终端、软件和社交领域中渐进式环境变化来测试LLM代理。现有代理在EvoArena上平均准确率仅为39.6%。作者提出EvoMem,一种基于补丁的记忆范式,以结构化更新历史记录环境演化,使得代理能通过记忆变化推理环境动态。EvoMem在EvoArena上带来1.5个百分点的绝对提升,同时在GAIA和LoCoMo基准上分别提高了6.1和4.8个百分点。在需要连续完成多个相关子任务的链式任务中,准确率提升3.7个百分点。机理分析表明EvoMem能更完整地捕获不断变化的环境状态。
论文来源: ARXIV重要度: 4/5
SpatialClaw是一个无需训练的框架,采用代码执行作为动作接口,通过维护一个有状态的Python内核,预加载输入帧以及感知与几何原语,让基于VLM的智能体根据过往输出逐步编写可执行单元。在20个涵盖静态与动态的3D/4D空间推理基准上,平均准确率达到59.9%,较此前的最佳空间智能体提升11.2个百分点。在六个来自两个模型家族的VLM骨干上均获一致增益,无需针对基准或模型进行特化调整。结果表明,灵活的迭代式代码接口在开放式空间任务上显著优于单次执行或结构化工具调用的设计。
论文来源: ARXIV重要度: 4/5
研究人员在76项已发表的社会与行为科学研究上评估了一个LLM流水线,这些研究均带有预定义结论。排除7项LLM无法生成有效效应量估计的研究,该流水线在剩余41%的研究中以±0.05 Cohen's d的容差恢复了原始效应量。它在96%的案例中得出了与原始研究相同的定性结论,优于人类再分析者34%的效应量恢复率和74%的结论一致性。这些结果表明LLM能够自动化并扩展可重复性评估,为系统性审核实证结果奠定了基础。
论文来源: ARXIV重要度: 4/5
现有工具增强的大模型代理使用逐步原子工具调用,导致执行粒度不匹配,暴露低层数据流并浪费上下文。HyperTool提出统一MCP风格工具接口,代理以代码块形式调用,可在内部调用多个工具、处理返回值并本地传递中间结果,将确定性子程序折叠为一次外部调用。系统通过跨工具组合任务合成轨迹并在真实MCP环境中验证进行训练。在MCP-Universe基准上,HyperTool将Qwen3-32B的平均准确率从15.69%提升至35.29%,Qwen3-8B从9.93%提升至33.33%,并超过GPT-OSS和Kimi-k2.5。这表明改变工具执行粒度能大幅提升多步工具使用能力。
论文来源: ARXIV重要度: 4/5
本文提出SkMTEB,首个斯洛伐克语综合性MTEB风格文本嵌入基准,包含31个数据集和7种任务类型。对31个嵌入模型的评测表明,大型指令微调多语言模型表现最佳,而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M参数)。尽管模型尺寸减少高达62%,但开源模型性能可媲美商业API,并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码,为其他资源匮乏语言提供了可复现的路径。