JoyAI-VL-Interaction:实时视觉-语言交互智能模型发布
JoyAI-VL-Interaction 是一个 80 亿参数、视觉优先的模型,能够无需用户提示自主决策响应或委托,旨在像人类一样感知环境变化并互动。该系统通过流式持续视频实现实时交互,配备可插拔的 ASR/TTS 模块和后台大脑。人类评估者在多种场景下更偏好该模型,而非现有的视频通话助手。该开源模型和系统代表了一种交互建模的新范式,用于始终在线的感知智能体。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
4 条内容
JoyAI-VL-Interaction 是一个 80 亿参数、视觉优先的模型,能够无需用户提示自主决策响应或委托,旨在像人类一样感知环境变化并互动。该系统通过流式持续视频实现实时交互,配备可插拔的 ASR/TTS 模块和后台大脑。人类评估者在多种场景下更偏好该模型,而非现有的视频通话助手。该开源模型和系统代表了一种交互建模的新范式,用于始终在线的感知智能体。
MiniMax 稀疏注意力 (MSA) 是一种为大型语言模型高效处理超长上下文(数十万至数百万 token)的新方法。它利用块级稀疏性和优化的 GPU 执行路径,在训练和推理中实现显著加速,同时保持性能水平。该方法基于分组查询注意力 (GQA),引入轻量级索引分支用于分组稀疏 token 检索,以及主分支用于精确块稀疏注意力。MSA 与 GPU 内核协同设计,可跨 GPU 扩展,已部署于生产级多模态模型,降低了每 token 的注意力计算量。其推理内核和模型已公开发布。
研究人员提出SearchSwarm-30B-A3B,一个面向长周期研究任务的代理型大语言模型。该模型运用委托智能将复杂问题分解、委派给子代理并整合摘要结果,从而优化主代理的语境预算。由于自然训练数据稀缺,团队通过数据合成与引导式框架实现任务分解和子代理协调。该模型表现优于同规模模型,并将开源以推动后续研究。
Code2LoRA是一个基于Qwen2.5-Coder-32B-Instruct的超网络框架,能为代码语言模型生成特定仓库的LoRA适配器,且推理时不增加token开销。该框架支持静态代码库的静态适配和活跃变化代码库的演进适配,可注入导入、API及项目约定等仓库上下文。在包含604个Python仓库的RepoPeftBench基准上,其静态与演进两个任务均取得高准确率,优于传统微调方法。代码、模型检查点及数据集均已公开。