Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

4 条内容

MARKTECHPOST2026年6月16日重点

Qwen-RobotSuite 发布三款具身 AI 模型：面向 VLA 操作、视频世界建模和导航

Qwen 团队发布了 Qwen-RobotSuite，包含三款独立的具身 AI 基础模型。Qwen-RobotManip 基于 Qwen3.5-4B 构建，是一个视觉-语言-动作模型，可将异构操作数据对齐到统一的 80 维动作向量，在 RoboChallenge Table30-v1 上排名第一，并展现出强大的跨具身迁移能力。Qwen-RobotWorld 是一个语言条件的视频世界模型，采用 60 层双流 MMDiT 和冻结的 Qwen2.5-VL 编码器，在 EWMBench 和 DreamGen Bench 上均获总体第一。Qwen-RobotNav 是基于 Qwen3-VL 的可扩展导航模型，具有参数化观察接口，在 VLN-CE RxR 上达到 76.5% 成功率，并支持智能体规划。RobotManip 和 RobotNav 已在 GitHub 开源；RobotWorld 以论文形式发布。

MARKTECHPOST2026年6月12日重点

Zyphra 发布 Zamba2-VL：1.2B–7B 规格混合 Mamba2-Transformer 视觉语言模型，首 token 延迟降低约一个数量级

Zyphra 发布了 Zamba2-VL 视觉语言模型系列，包含 1.2B、2.7B 和 7B 三种参数规模。每个模型采用混合 Mamba2 状态空间模型与少量共享 Transformer 块相结合的架构，取代密集注意力以实现近线性推理扩展。该模型使用 Qwen2.5-VL 视觉编码器与此骨干配合，支持单图、多图理解及定位。在 14 项基准测试中，Zamba2-VL 在视觉计数和文档理解方面表现强劲（例如 2.7B 模型 DocVQA 得分 90.9），但在知识密集型推理（如 MMMU 和 MathVista）上落后于更大基线。其最大优势是相比同等 Transformer VLM 首 token 时间降低约一个数量级，尤其有利于长多模态输入和端侧部署。权重以 Apache 2.0 协议在 HuggingFace 开源，并提供推理代码。

MARKTECHPOST2026年6月10日重点

Anthropic 发布 Claude Fable 5 与 Mythos 5：相同基座模型，不同安全防护，全新 Mythos 级别

Anthropic 于 2026 年 6 月 9 日发布 Claude Fable 5 和 Claude Mythos 5 两款模型。二者同属 Mythos 级，位于 Opus 级之上，且共用相同基座模型。Fable 5 面向一般用户开放，内置安全分类器，在标记请求时回退至 Opus 4.8；Mythos 5 则移除了网络安全防护，仅通过 Project Glasswing 有限开放。模型支持 100 万 token 上下文窗口和 12.8 万 token 输出，定价为每百万输入 token 10 美元、每百万输出 token 50 美元。Anthropic 称 Fable 5 在几乎所有基准测试中达到最先进水平，涵盖软件工程、金融、视觉和长上下文任务；Stripe 利用该模型一天内完成了一个 5000 万行代码库的迁移。分类器在不到 5% 的会话中触发，超过 95% 的 Fable 会话无需回退，此时性能与 Mythos 5 相当。

MARKTECHPOST2026年6月9日重点

谷歌发布 Gemini 3.5 Live Translate：覆盖 70 多种语言的流式语音到语音音频模型，落地 Meet、Translate 和 Live API

谷歌发布了 Gemini 3.5 Live Translate，一个专用的语音到语音音频模型，能实时将口语翻译成 70 多种语言，并保留说话人的语调、语速和音高。它采用连续流处理，翻译延迟仅几秒，不同于基于轮次的交互模式。开发者可通过 Gemini Live API 配置 translationConfig，指定 BCP-47 目标语言代码；输入为 16kHz 16-bit 单声道 PCM 音频，输出 24kHz 音频。该模型已在 Live API 和 AI Studio 上开放公开预览，Google Meet 正进行企业私有预览（语言支持从 5 种提升至 70 种以上），并将登陆 Android 和 iOS 版 Google 翻译应用。所有生成音频均嵌入不可察觉的 SynthID 水印。