Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

17 条内容

TELEGRAM HUGGINGFACEPAPERS2026年6月16日重点

JoyAI-VL-Interaction：实时视觉-语言交互智能模型发布

JoyAI-VL-Interaction 是一个 80 亿参数、视觉优先的模型，能够无需用户提示自主决策响应或委托，旨在像人类一样感知环境变化并互动。该系统通过流式持续视频实现实时交互，配备可插拔的 ASR/TTS 模块和后台大脑。人类评估者在多种场景下更偏好该模型，而非现有的视频通话助手。该开源模型和系统代表了一种交互建模的新范式，用于始终在线的感知智能体。

TELEGRAM HUGGINGFACEPAPERS2026年6月15日重点

HarnessX：一种可组合、自适应且可进化的智能体运行时框架铸造厂

HarnessX 是一个实现可组合、自适应、可进化的智能体运行时框架的平台。它引入了组合原语和 AEGIS（一种基于执行反馈的轨迹驱动进化引擎）以迭代优化框架设计。该平台通过代换代数取代了传统静态、手工编写的框架，实现动态适配。在多个基准测试中，HarnessX 相比传统框架平均性能提升了 +14.5%，证明在模型规模之外，运行时接口的进化同样关键。完整代码库将于未来发布。

TELEGRAM HUGGINGFACEPAPERS2026年6月14日

WeaveBench：面向混合接口计算机使用智能体的长周期真实世界基准

WeaveBench 是一个专为评估跨混合接口操作的计算机使用智能体（CUA）而设计的全面基准，要求同时进行 GUI 和 CLI/代码操作。它包含 114 个长周期任务，覆盖 8 个真实工作领域，并在真实的 Ubuntu 桌面上进行评估。该基准引入了一种轨迹感知评判器，用于检查智能体的交付成果并检测走捷径行为，弥补了传统评估方法的不足。在测试的模型-运行时组合中，通过率仅为 41.2%，暴露了在长周期任务编排方面的显著性能差距。

TELEGRAM HUGGINGFACEPAPERS2026年6月13日重点

FORT-Searcher：合成抗捷径搜索任务，用于训练深度搜索代理

研究人员提出了FORT框架，用于合成能抵抗捷径学习的深度搜索代理训练数据。该框架识别并缓解了四种捷径风险：证据共覆盖、单线索选择性、暴露常量和先验知识绑定。它利用轨迹签名来测量和控制数据生成中的捷径风险。实验表明，FORT生成的数据使搜索代理在深度搜索基准上性能提升。配套工具FORT-Searcher在挑战性任务上优于同类代理。代码已开源在GitHub。

TELEGRAM HUGGINGFACEPAPERS2026年6月13日

EvoArena：追踪记忆演化以构建动态环境中鲁棒的LLM智能体

该论文提出EvoArena基准，模拟真实世界动态变化以测试LLM智能体，并推出EvoMem记忆范式，对渐进式更新和结构化记忆演化进行建模。现有的LLM智能体在EvoArena不断变化的任务上表现挣扎。EvoMem能持续提升在EvoArena上的性能，并在GAIA和LoCoMo等标准基准上提高准确率。通过记录记忆演化和更新历史，EvoMem使智能体更好地推理环境变化。该工作证明了将演化建模融入评估和记忆对于有效部署智能体的重要性。

TELEGRAM HUGGINGFACEPAPERS2026年6月12日

Claw-SWE-Bench：评估OpenClaw风格Agent框架的编码任务基准

该论文提出Claw-SWE-Bench基准，旨在标准化OpenClaw风格编码Agent框架的评估。它包含350个跨多种语言和代码库的GitHub问题解决实例，并提供精简版用于快速验证。引入适配器协议解耦Agent逻辑与框架执行，实验表明适配器选择显著影响Agent性能。结果强调了框架设计和成本在公平比较中的关键作用，为编码Agent评估提供了可复现且经济高效的参考集。