MARKTECHPOST··重点
Qwen 团队发布了 Qwen-RobotSuite,包含三款独立的具身 AI 基础模型。Qwen-RobotManip 基于 Qwen3.5-4B 构建,是一个视觉-语言-动作模型,可将异构操作数据对齐到统一的 80 维动作向量,在 RoboChallenge Table30-v1 上排名第一,并展现出强大的跨具身迁移能力。Qwen-RobotWorld 是一个语言条件的视频世界模型,采用 60 层双流 MMDiT 和冻结的 Qwen2.5-VL 编码器,在 EWMBench 和 DreamGen Bench 上均获总体第一。Qwen-RobotNav 是基于 Qwen3-VL 的可扩展导航模型,具有参数化观察接口,在 VLN-CE RxR 上达到 76.5% 成功率,并支持智能体规划。RobotManip 和 RobotNav 已在 GitHub 开源;RobotWorld 以论文形式发布。
MARKTECHPOST··重点
Zyphra 发布了 Zamba2-VL 视觉语言模型系列,包含 1.2B、2.7B 和 7B 三种参数规模。每个模型采用混合 Mamba2 状态空间模型与少量共享 Transformer 块相结合的架构,取代密集注意力以实现近线性推理扩展。该模型使用 Qwen2.5-VL 视觉编码器与此骨干配合,支持单图、多图理解及定位。在 14 项基准测试中,Zamba2-VL 在视觉计数和文档理解方面表现强劲(例如 2.7B 模型 DocVQA 得分 90.9),但在知识密集型推理(如 MMMU 和 MathVista)上落后于更大基线。其最大优势是相比同等 Transformer VLM 首 token 时间降低约一个数量级,尤其有利于长多模态输入和端侧部署。权重以 Apache 2.0 协议在 HuggingFace 开源,并提供推理代码。
MARKTECHPOST··重点
Anthropic 于 2026 年 6 月 9 日发布 Claude Fable 5 和 Claude Mythos 5 两款模型。二者同属 Mythos 级,位于 Opus 级之上,且共用相同基座模型。Fable 5 面向一般用户开放,内置安全分类器,在标记请求时回退至 Opus 4.8;Mythos 5 则移除了网络安全防护,仅通过 Project Glasswing 有限开放。模型支持 100 万 token 上下文窗口和 12.8 万 token 输出,定价为每百万输入 token 10 美元、每百万输出 token 50 美元。Anthropic 称 Fable 5 在几乎所有基准测试中达到最先进水平,涵盖软件工程、金融、视觉和长上下文任务;Stripe 利用该模型一天内完成了一个 5000 万行代码库的迁移。分类器在不到 5% 的会话中触发,超过 95% 的 Fable 会话无需回退,此时性能与 Mythos 5 相当。
MARKTECHPOST··重点
谷歌发布了 Gemini 3.5 Live Translate,一个专用的语音到语音音频模型,能实时将口语翻译成 70 多种语言,并保留说话人的语调、语速和音高。它采用连续流处理,翻译延迟仅几秒,不同于基于轮次的交互模式。开发者可通过 Gemini Live API 配置 translationConfig,指定 BCP-47 目标语言代码;输入为 16kHz 16-bit 单声道 PCM 音频,输出 24kHz 音频。该模型已在 Live API 和 AI Studio 上开放公开预览,Google Meet 正进行企业私有预览(语言支持从 5 种提升至 70 种以上),并将登陆 Android 和 iOS 版 Google 翻译应用。所有生成音频均嵌入不可察觉的 SynthID 水印。