论文来源: ARXIV重要度: 4/5
本文提出EurekAgent,一个面向指标驱动的自主科学发现的环境工程化智能体系统。作者指出,关键瓶颈正从设计智能体工作流转向工程化智能体所处的环境,以放大有益行为(如开放式探索、系统化物件管理、智能体协作)并抑制有害行为(如奖励作弊、高摩擦人工监督)。EurekAgent从四个维度进行环境工程:权限工程实现有界执行与隔离评估,工件工程实现文件系统与Git协作,预算工程实现预算感知探索,以及人在回路工程便于人类监督与干预。该系统在多个数学、内核工程和机器学习任务上取得新的最先进结果,包括以不到11美元总API成本发现的一个新的26圆堆叠结果。作者已将代码与结果开源,并倡议将环境工程作为可靠自主科研智能体的核心研究方向。
论文来源: ARXIV重要度: 4/5
本文提出SkMTEB,首个斯洛伐克语综合性MTEB风格文本嵌入基准,包含31个数据集和7种任务类型。对31个嵌入模型的评测表明,大型指令微调多语言模型表现最佳,而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M参数)。尽管模型尺寸减少高达62%,但开源模型性能可媲美商业API,并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码,为其他资源匮乏语言提供了可复现的路径。
论文来源: ARXIV重要度: 4/5
该论文提出ModSleuth,一个从模型卡、数据集和评估报告等公开制品中递归重建LLM依赖图的智能系统。它通过形式化直接与间接依赖关系,并解决跨不一致文档的制品身份对齐问题,应对依赖定义和协调的挑战。在四个公开LLM版本上应用,ModSleuth恢复了1060个经来源验证的依赖,揭示了多跳许可义务、训练-评估耦合、以及发布与训练阶段制品的差异。系统及依赖图公开释放,以支持日益复杂的LLM开发生态系统的透明分析。
论文来源: ARXIV重要度: 3/5
Claw-SWE-Bench是一个多语言SWE-bench风格基准测试,包含350个问题解决实例,覆盖8种语言和43个代码库,旨在通过标准化的适配器协议(固定提示、运行时预算、补丁提取)公平地比较不同类型的智能体适配器。提供了经成本感知筛选的80实例Lite子集以加快验证。在相同的GLM 5.1基座模型下,OpenClaw使用最小直接差异适配器的Pass@1仅为19.1%,而使用完整适配器后达到73.4%,表明适配器设计对开源智能体适配器的编码性能至关重要。在九个模型和五个适配器的交叉实验中,模型选择和适配器选择分别独立导致Pass@1约29个百分点和27个百分点的变化,且精度相近的系统在总API成本上可能差异显著。因此该基准将适配器架构和成本作为编码智能体评估的一级维度。
论文来源: ARXIV重要度: 3/5
PROJECTMEM是一个开源、本地优先的记忆与判断层,以追加式纯文本事件日志记录AI编码代理的开发过程,并通过模型上下文协议(MCP)将其投影为紧凑的AI可读摘要。系统内置确定性预动作门控,能在代理重复之前失败的修复或编辑已知脆弱文件前发出警告,提出“记忆即治理”理念。它完全离线运行,提供来源可追溯的审计轨迹,并以3项依赖的Python包形式发布,包含14个MCP工具、19条CLI命令和37项自动化测试。为期两个月的自研究覆盖10个项目和207个记录事件,证实其可消除每次会话重建上下文所需的5000–20000个token开销,并避免重复调试。