Infogap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

第 1 / 2 页

筛选

论文来源: ARXIV2026年6月12日重要度: 4/5

本文提出EurekAgent，一个面向指标驱动的自主科学发现的环境工程化智能体系统。作者指出，关键瓶颈正从设计智能体工作流转向工程化智能体所处的环境，以放大有益行为（如开放式探索、系统化物件管理、智能体协作）并抑制有害行为（如奖励作弊、高摩擦人工监督）。EurekAgent从四个维度进行环境工程：权限工程实现有界执行与隔离评估，工件工程实现文件系统与Git协作，预算工程实现预算感知探索，以及人在回路工程便于人类监督与干预。该系统在多个数学、内核工程和机器学习任务上取得新的最先进结果，包括以不到11美元总API成本发现的一个新的26圆堆叠结果。作者已将代码与结果开源，并倡议将环境工程作为可靠自主科研智能体的核心研究方向。

论文来源: ARXIV2026年6月12日重要度: 4/5

本文提出SkMTEB，首个斯洛伐克语综合性MTEB风格文本嵌入基准，包含31个数据集和7种任务类型。对31个嵌入模型的评测表明，大型指令微调多语言模型表现最佳，而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型，开发了e5-sk-small（45M参数）和e5-sk-large（365M参数）。尽管模型尺寸减少高达62%，但开源模型性能可媲美商业API，并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码，为其他资源匮乏语言提供了可复现的路径。

论文来源: ARXIV2026年6月11日重要度: 4/5

该论文提出ModSleuth，一个从模型卡、数据集和评估报告等公开制品中递归重建LLM依赖图的智能系统。它通过形式化直接与间接依赖关系，并解决跨不一致文档的制品身份对齐问题，应对依赖定义和协调的挑战。在四个公开LLM版本上应用，ModSleuth恢复了1060个经来源验证的依赖，揭示了多跳许可义务、训练-评估耦合、以及发布与训练阶段制品的差异。系统及依赖图公开释放，以支持日益复杂的LLM开发生态系统的透明分析。

论文来源: ARXIV2026年6月11日重要度: 3/5

Claw-SWE-Bench是一个多语言SWE-bench风格基准测试，包含350个问题解决实例，覆盖8种语言和43个代码库，旨在通过标准化的适配器协议（固定提示、运行时预算、补丁提取）公平地比较不同类型的智能体适配器。提供了经成本感知筛选的80实例Lite子集以加快验证。在相同的GLM 5.1基座模型下，OpenClaw使用最小直接差异适配器的Pass@1仅为19.1%，而使用完整适配器后达到73.4%，表明适配器设计对开源智能体适配器的编码性能至关重要。在九个模型和五个适配器的交叉实验中，模型选择和适配器选择分别独立导致Pass@1约29个百分点和27个百分点的变化，且精度相近的系统在总API成本上可能差异显著。因此该基准将适配器架构和成本作为编码智能体评估的一级维度。

论文来源: ARXIV2026年6月11日重要度: 3/5

PROJECTMEM是一个开源、本地优先的记忆与判断层，以追加式纯文本事件日志记录AI编码代理的开发过程，并通过模型上下文协议（MCP）将其投影为紧凑的AI可读摘要。系统内置确定性预动作门控，能在代理重复之前失败的修复或编辑已知脆弱文件前发出警告，提出“记忆即治理”理念。它完全离线运行，提供来源可追溯的审计轨迹，并以3项依赖的Python包形式发布，包含14个MCP工具、19条CLI命令和37项自动化测试。为期两个月的自研究覆盖10个项目和207个记录事件，证实其可消除每次会话重建上下文所需的5000–20000个token开销，并避免重复调试。

过滤噪音，保留 AI 信号。

筛选

iOSWorld: A Benchmark for Personally Intelligent Phone Agents