Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

17 条内容

TELEGRAM HUGGINGFACEPAPERS2026年6月16日重点

机器人策略学习的几何动作模型

该论文提出几何动作模型（GAM），利用预训练的几何基础模型来增强三维物理环境中的语言条件操纵。GAM将预训练基础模型分为观测编码层和未来预测层，使其能够根据语言、本体感知和动作历史预测未来令牌，然后解码为动作。这种三维感知方法在模拟和真实机器人接触密集任务中，较传统二维视觉-语言-动作模型显著提升了准确性、鲁棒性、效率和速度。

TELEGRAM HUGGINGFACEPAPERS2026年6月16日重点

JoyAI-VL-Interaction：实时视觉-语言交互智能模型发布

JoyAI-VL-Interaction 是一个 80 亿参数、视觉优先的模型，能够无需用户提示自主决策响应或委托，旨在像人类一样感知环境变化并互动。该系统通过流式持续视频实现实时交互，配备可插拔的 ASR/TTS 模块和后台大脑。人类评估者在多种场景下更偏好该模型，而非现有的视频通话助手。该开源模型和系统代表了一种交互建模的新范式，用于始终在线的感知智能体。

TELEGRAM HUGGINGFACEPAPERS2026年6月16日

数据记者代理：将数据转化为可验证的多模态报道

该论文提出了Data2Story，一个通过模拟虚拟新闻编辑室中不同角色的多智能体框架，来自动化数据新闻生产。它能够生成基于证据的多格式新闻故事，包括文字报道、交互地图和音频，并链接数据源以确保可验证性。在与人类专家记者的对比评估中，Data2Story展现出有竞争力的表现，尤其在透明度和可审计性方面突出，但人类记者在编辑角度和创意设计方面仍占优势。该系统被定位为记者的协作工具。

TELEGRAM HUGGINGFACEPAPERS2026年6月15日

OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

OmniDirector 提出了一种统一的相机运动克隆框架，利用网格运动视频直观编码相机参数，支持多镜头场景下的多样化轨迹。该方法在大规模相机网格-视频对数据集上训练，无需交叉配对数据。框架通过多模态扩散变换器整合角色、动作和相机，实现导演级控制；并采用分层提示扩展代理协调不同控制信号，增强相机运动和视觉内容描述。大量实验表明其性能和控制能力优于现有方法。

TELEGRAM HUGGINGFACEPAPERS2026年6月15日重点

Orchestra-o1：全模态智能体编排框架，通过DA-GRPO优化实现OmniGAIA基准上SOTA性能

论文提出了全模态智能体编排框架Orchestra-o1，实现文本、图像、音频和视频并发输入的多个智能体高效协作。它通过简化任务分解、子智能体专门化以及并行子任务执行，解决了现有系统在复杂多模态场景中的局限。框架采用了一种新颖的决策对齐组相对策略优化（DA-GRPO）算法。在OmniGAIA基准上，Orchestra-o1取得了最先进性能，准确率超过第二名10.3%。该工作证明跨模态的协调多智能体编排能显著提升任务表现。

TELEGRAM HUGGINGFACEPAPERS2026年6月13日重点

MiniMax 稀疏注意力

MiniMax 稀疏注意力 (MSA) 是一种为大型语言模型高效处理超长上下文（数十万至数百万 token）的新方法。它利用块级稀疏性和优化的 GPU 执行路径，在训练和推理中实现显著加速，同时保持性能水平。该方法基于分组查询注意力 (GQA)，引入轻量级索引分支用于分组稀疏 token 检索，以及主分支用于精确块稀疏注意力。MSA 与 GPU 内核协同设计，可跨 GPU 扩展，已部署于生产级多模态模型，降低了每 token 的注意力计算量。其推理内核和模型已公开发布。