Together AI 公布 GLM 5.1 推理优化细节:重写索引器 Topk 内核并消除开销
Together AI 披露了加速 GLM 5.1 推理的三项主要优化。他们重写了索引器 topk 内核,并融合索引器内核以降低内存和启动开销。此外,还消除了阻碍预填充吞吐量的 CPU 开销。其中索引器带来了最大的性能提升。GLM 5.1 现已在 Together AI 平台上线。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
51 条内容
Together AI 披露了加速 GLM 5.1 推理的三项主要优化。他们重写了索引器 topk 内核,并融合索引器内核以降低内存和启动开销。此外,还消除了阻碍预填充吞吐量的 CPU 开销。其中索引器带来了最大的性能提升。GLM 5.1 现已在 Together AI 平台上线。
月之暗面(Moonshot AI)为其开源多模态编程模型 Kimi K2.7 Code 推出了高速模式。新模式实现了最高 6 倍的推理速度提升,在中等长度输入的编程任务上可达到约 180 tokens/秒,在短上下文任务上最高可达 260 tokens/秒。该高速模式正逐步向 Kimi Code Beta 计划成员、Kimi API 开发者和 Kimi 商业用户开放,但因容量限制,访问目前仍有限。无需邀请,加入 Beta 计划就有机会获得访问权限。公司表示随着容量增加,将继续优化模型并扩大访问范围。
Together AI 针对 DeepSeek V4 Pro 的推理服务进行了优化,在 Artificial Analysis 基准测试中实现了输出速度(每秒 token 数)和延迟的双料第一。优化涉及 KV 缓存管理、前缀复用、定制化内核以及端点配置文件。这使得开发者通过 Together AI 调用 DeepSeek V4 Pro 可获得当前最快的 API 响应体验。该公司通过链接文章详细拆解了系统工程优化细节。
DeepSeek V4 Pro 模型在 Together Compute 的推理平台上部署后,在延迟和速度基准测试中均获得第一名。这一消息源自 Vipul Ved 的推文并被 Together Compute 转发,表明该模型目前在该服务的推理性能上处于领先地位。该社交媒体帖子中未披露具体指标或对比数据。
MiniMax公司发布的原生多模态模型MiniMax-M3现已在Together AI平台上线,后者是其首选云合作伙伴。该模型为开放权重,拥有100万token上下文窗口,采用MiniMax稀疏注意力机制,并支持思考与非思考两种推理模式。Together AI针对该模型进行了推理优化,在不同并发水平下吞吐量最高提升125%,使开发者能够以更高性能访问该模型。
Together AI 公布了针对 NVIDIA Blackwell GPU Tensor Core 指令优化的定制推理内核,在相同 Blackwell 硬件上比最快的开源引擎实现了 31% 的每秒令牌数(TPS)提升。该性能在编码智能体基准测试中得到验证,硬件对比由 Artificial Analysis 的 AgentPerf 提供。AI 代码编辑器 Cursor 已将该推理栈用于生产环境中的实时编码智能体。