Infogap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

第 1 / 17 页

筛选

社交来源: X2026年6月15日重要度: 3/5

Together AI 针对 DeepSeek V4 Pro 的推理服务进行了优化，在 Artificial Analysis 基准测试中实现了输出速度（每秒 token 数）和延迟的双料第一。优化涉及 KV 缓存管理、前缀复用、定制化内核以及端点配置文件。这使得开发者通过 Together AI 调用 DeepSeek V4 Pro 可获得当前最快的 API 响应体验。该公司通过链接文章详细拆解了系统工程优化细节。

社交来源: X2026年6月14日重要度: 3/5

DeepSeek V4 Pro 模型在 Together Compute 的推理平台上部署后，在延迟和速度基准测试中均获得第一名。这一消息源自 Vipul Ved 的推文并被 Together Compute 转发，表明该模型目前在该服务的推理性能上处于领先地位。该社交媒体帖子中未披露具体指标或对比数据。

社交来源: V2EX2026年6月14日重要度: 2/5

AI 中转服务商 Krill 于 2026 年 6 月 15 日至 18 日推出 618 促销，Codex 基础倍率最低降至 0.15，Codex 套餐可用 66 折优惠码；10 人拼团后实际费率低至 0.1 元/刀。6 月 15 日持有有效 Codex 套餐的老用户额度将直接补足至 0.1 倍率水平。Claude 模型仅通过余额充值提供折扣，无套餐。服务使用 Pro 账号池，强调成本透明。

社交来源: V2EX2026年6月13日重要度: 1/5

一位V2EX用户提到，朋友在主要使用OpenAI的Codex和ChatGPT的同时，购买了GLM年度订阅作为备用。在近期政策驱动的访问限制（可能涉及“Fable”等事件）后，这一备用方案显现出战略价值。发帖者警告不应完全依赖OpenAI或Anthropic等随时可能因政策切断访问的供应商，并计划办理GLM年度套餐。该帖反映出社区对API依赖风险的担忧以及保留备用方案的重要性。

社交来源: TELEGRAM HUGGINGFACEPAPERS2026年6月13日重要度: 4/5

MiniMax 稀疏注意力 (MSA) 是一种为大型语言模型高效处理超长上下文（数十万至数百万 token）的新方法。它利用块级稀疏性和优化的 GPU 执行路径，在训练和推理中实现显著加速，同时保持性能水平。该方法基于分组查询注意力 (GQA)，引入轻量级索引分支用于分组稀疏 token 检索，以及主分支用于精确块稀疏注意力。MSA 与 GPU 内核协同设计，可跨 GPU 扩展，已部署于生产级多模态模型，降低了每 token 的注意力计算量。其推理内核和模型已公开发布。

社交来源: REDDIT MACHINELEARNING2026年6月13日重要度: 2/5

开发者 Knok0932 更新了一个开源 C++ PaddleOCR 实现，现已支持 PP-OCR v3 到最新的 v6 文本检测与识别模型。该项目使用 ncnn 推理框架替代官方 Paddle C++ 运行时，后者依赖繁多、部署复杂。根据开发者的任务，基于 ncnn 的方法推理速度更快且大幅简化了部署。代码已在 GitHub 上公开（https://github.com/Avafly/PaddleOCR-ncnn-CPP）。