Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

51 条内容

X2026年6月15日

Together AI 公布 GLM 5.1 推理优化细节：重写索引器 Topk 内核并消除开销

Together AI 披露了加速 GLM 5.1 推理的三项主要优化。他们重写了索引器 topk 内核，并融合索引器内核以降低内存和启动开销。此外，还消除了阻碍预填充吞吐量的 CPU 开销。其中索引器带来了最大的性能提升。GLM 5.1 现已在 Together AI 平台上线。

X2026年6月15日

Kimi 发布 K2.7 Code 高速模式，推理速度提升高达 6 倍

月之暗面（Moonshot AI）为其开源多模态编程模型 Kimi K2.7 Code 推出了高速模式。新模式实现了最高 6 倍的推理速度提升，在中等长度输入的编程任务上可达到约 180 tokens/秒，在短上下文任务上最高可达 260 tokens/秒。该高速模式正逐步向 Kimi Code Beta 计划成员、Kimi API 开发者和 Kimi 商业用户开放，但因容量限制，访问目前仍有限。无需邀请，加入 Beta 计划就有机会获得访问权限。公司表示随着容量增加，将继续优化模型并扩大访问范围。

X2026年6月14日

过滤噪音，保留 AI 信号。

Together AI 公布 GLM 5.1 推理优化细节：重写索引器 Topk 内核并消除开销

Kimi 发布 K2.7 Code 高速模式，推理速度提升高达 6 倍

Together AI 的 DeepSeek V4 Pro 在 Artificial Analysis 输出速度与延迟评测中双双登顶

DeepSeek V4 Pro 在 Together Compute 平台上延迟和速度均获第一

MiniMax-M3开源多模态模型登陆Together AI，支持100万token上下文

Together AI 为 NVIDIA Blackwell GPU 定制内核，在生产级编码智能体推理中实现 31% 吞吐量提升