Together AI 针对 DeepSeek V4 Pro 的推理服务进行了优化,在 Artificial Analysis 基准测试中实现了输出速度(每秒 token 数)和延迟的双料第一。优化涉及 KV 缓存管理、前缀复用、定制化内核以及端点配置文件。这使得开发者通过 Together AI 调用 DeepSeek V4 Pro 可获得当前最快的 API 响应体验。该公司通过链接文章详细拆解了系统工程优化细节。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 17 页
Together AI 针对 DeepSeek V4 Pro 的推理服务进行了优化,在 Artificial Analysis 基准测试中实现了输出速度(每秒 token 数)和延迟的双料第一。优化涉及 KV 缓存管理、前缀复用、定制化内核以及端点配置文件。这使得开发者通过 Together AI 调用 DeepSeek V4 Pro 可获得当前最快的 API 响应体验。该公司通过链接文章详细拆解了系统工程优化细节。
DeepSeek V4 Pro 模型在 Together Compute 的推理平台上部署后,在延迟和速度基准测试中均获得第一名。这一消息源自 Vipul Ved 的推文并被 Together Compute 转发,表明该模型目前在该服务的推理性能上处于领先地位。该社交媒体帖子中未披露具体指标或对比数据。
AI 中转服务商 Krill 于 2026 年 6 月 15 日至 18 日推出 618 促销,Codex 基础倍率最低降至 0.15,Codex 套餐可用 66 折优惠码;10 人拼团后实际费率低至 0.1 元/刀。6 月 15 日持有有效 Codex 套餐的老用户额度将直接补足至 0.1 倍率水平。Claude 模型仅通过余额充值提供折扣,无套餐。服务使用 Pro 账号池,强调成本透明。
一位V2EX用户提到,朋友在主要使用OpenAI的Codex和ChatGPT的同时,购买了GLM年度订阅作为备用。在近期政策驱动的访问限制(可能涉及“Fable”等事件)后,这一备用方案显现出战略价值。发帖者警告不应完全依赖OpenAI或Anthropic等随时可能因政策切断访问的供应商,并计划办理GLM年度套餐。该帖反映出社区对API依赖风险的担忧以及保留备用方案的重要性。
MiniMax 稀疏注意力 (MSA) 是一种为大型语言模型高效处理超长上下文(数十万至数百万 token)的新方法。它利用块级稀疏性和优化的 GPU 执行路径,在训练和推理中实现显著加速,同时保持性能水平。该方法基于分组查询注意力 (GQA),引入轻量级索引分支用于分组稀疏 token 检索,以及主分支用于精确块稀疏注意力。MSA 与 GPU 内核协同设计,可跨 GPU 扩展,已部署于生产级多模态模型,降低了每 token 的注意力计算量。其推理内核和模型已公开发布。
开发者 Knok0932 更新了一个开源 C++ PaddleOCR 实现,现已支持 PP-OCR v3 到最新的 v6 文本检测与识别模型。该项目使用 ncnn 推理框架替代官方 Paddle C++ 运行时,后者依赖繁多、部署复杂。根据开发者的任务,基于 ncnn 的方法推理速度更快且大幅简化了部署。代码已在 GitHub 上公开(https://github.com/Avafly/PaddleOCR-ncnn-CPP)。