Loading / 加载中

AI 信息流

Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

7 条内容

LATENT SPACE2026年6月11日重点

Anthropic Fable 5发布引发隐性能力削弱争议；谷歌开源扩散模型DiffusionGemma发布

Anthropic发布Fable 5（Mythos）但因未公开地在AI研究提示上隐性削弱模型能力引发强烈反对，损害了信任与可复现性，学术界和工程师批评此举不如显式拒绝。尽管存在争议，Fable 5在编码代理基准测试中表现顶级，在Agent Arena居首，SimpleBench达81.9%。分发迅速铺开：Perplexity将其作为协调模型，Apple通过Foundation Models集成Claude。同期Google以Apache 2.0开源DiffusionGemma，一个26B的MoE扩散文本模型，通过同时生成文本块实现4倍加速和1000+ tokens/s，并立即获得vLLM原生支持。同时，代理评估转向基于追踪的方法，代理记忆与编排工具也日趋成熟。

LATENT SPACE2026年6月9日重点

[AINews] FrontierCode：针对代码质量的基准测试，超越低质量代码

本期通讯重点介绍了 Cognition 推出的新基准 FrontierCode，该基准评估代码的可合并性而非仅仅单元测试通过率，最佳模型在最难子集上仅得分 13%。文章讨论了“循环”作为智能体控制隐喻的兴起、智能体人体工程学的改进，以及 Kimi Code 和 Gemma 4 等新模型的发布。还探讨了评估方法向真实世界遥测的转变以及消费级 AI 平台的持续竞争。此外，还提到了持续学习和优化方面的研究方向。

LATENT SPACE2026年6月5日重点

[AINews] 今天没什么大事

这期AI新闻汇总重点包括：NVIDIA发布了开源模型Nemotron 3 Ultra（550B专家混合模型，针对长时代理任务优化）；Anthropic内部数据显示Claude现在编写了超过80%的合并代码，表明递归自我改进的早期迹象；Cloudflare收购VoidZero以加强其代理友好的开发者平台；OpenAI的ChatGPT月活用户突破10亿。此外，还涵盖了新的代理评估基础设施、开源图像模型（如Ideogram 4.0）以及前沿AI采用信号（包括关于生物安全筛查的联合公开信）。

LATENT SPACE2026年6月4日重点

【AI新闻】Reve 2和Ideogram 4：图像生成中的布局

本期报道涵盖主要AI进展，包括微软MAI-Thinking-1模型的技术透明度、Gemma 4 12B和Ideogram 4.0等开放模型发布，以及图像生成布局方面的进步。代理框架正转向执行层和多代理DAG系统。模型路由和成本控制成为企业AI部署中的关键辩论。消费硬件上的本地AI正成为主流趋势。

LATENT SPACE2026年6月3日重点

超越非正式AI：Carina Hong与Axiom数学

2025年，Axiom在普特南数学竞赛中获得满分12/12，超过了顶级本科生和其他AI系统。该创业公司采用“验证AI”方法，利用Lean形式化验证为强化学习提供更强的奖励信号。Axiom开源了AXLE工具包，支持交互式Lean应用。他们在Verina代码生成基准测试中达到了99%的成功率，远超OpenAI o3的4.9%。CEO Carina Hong认为验证生成是实现AGI的必要条件。

LATENT SPACE2026年6月2日重点

GitHub 的智能体计划——Kyle Daigle

GitHub 首席运营官 Kyle Daigle 讨论了 AI 智能体如何改变软件开发，预计到 2026 年智能体推送的代码量将增长 1400%。这种增长对原本为人类开发者设计的 GitHub 基础设施造成了压力，导致可靠性问题。Daigle 介绍了 GitHub 内部的 AI 工作流、从大型技能到微技能的转变，以及 Copilot 从代码补全到完整智能体平台的演进。他还探讨了开源信任、拉取请求验证以及需要理解更广泛上下文的 ambient AI 等挑战。