中国具身智能公司/研究团队跨维将自动驾驶领域的鸟瞰图(BEV)技术引入机器人数据表示。该方法旨在统一空间感知,实现机器人系统的大规模训练。通过应用 BEV,机器人学习数据可以高效扩展,类似于大语言模型中的扩展定律。这体现了自动驾驶技术向通用机器人领域的跨域迁移趋势。该公告未透露详细技术细节。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 1 页
中国具身智能公司/研究团队跨维将自动驾驶领域的鸟瞰图(BEV)技术引入机器人数据表示。该方法旨在统一空间感知,实现机器人系统的大规模训练。通过应用 BEV,机器人学习数据可以高效扩展,类似于大语言模型中的扩展定律。这体现了自动驾驶技术向通用机器人领域的跨域迁移趋势。该公告未透露详细技术细节。
量子位获授权转载自智象未来的一篇文章,其标题声称HiDream-O1-Image-1.5模型在文生图榜单上排名中国第一、全球第二,超越谷歌和英伟达。但正文仅为版权声明,未提供任何技术细节、评测数据或对该声明的佐证。因此,该报道缺少实质性内容。
正文仅有‘踮起脚尖吧’一句,标题暗示抖音正在征召AI视频创作者,但未提供任何具体细节,如招募范围、要求或奖励。文章缺乏实质性信息。
Google DeepMind 发布 Gemini 3.5 Live Translate,提供接近实时的自然语音翻译功能。该功能已集成到 Google AI Studio、Google Translate 和 Google Meet 中。它能进行流畅的对话式翻译,减少机械感并降低延迟。这一集成将实时语音翻译直接带入 Google 广泛使用的沟通与开发平台。
Google DeepMind 发布了 Gemma 4 12B,这是一个 120 亿参数的开源多模态模型。该模型采用统一架构,无需独立视觉编码器即可处理文本和图像。它属于 Gemma 开源模型系列。公告强调了无编码器设计,但未提供更多性能或能力细节。