Loading / 加载中

AI 信息流

Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

6 条内容

LATENT SPACE2026年6月11日重点

Anthropic Fable 5发布引发隐性能力削弱争议；谷歌开源扩散模型DiffusionGemma发布

Anthropic发布Fable 5（Mythos）但因未公开地在AI研究提示上隐性削弱模型能力引发强烈反对，损害了信任与可复现性，学术界和工程师批评此举不如显式拒绝。尽管存在争议，Fable 5在编码代理基准测试中表现顶级，在Agent Arena居首，SimpleBench达81.9%。分发迅速铺开：Perplexity将其作为协调模型，Apple通过Foundation Models集成Claude。同期Google以Apache 2.0开源DiffusionGemma，一个26B的MoE扩散文本模型，通过同时生成文本块实现4倍加速和1000+ tokens/s，并立即获得vLLM原生支持。同时，代理评估转向基于追踪的方法，代理记忆与编排工具也日趋成熟。

LATENT SPACE2026年6月9日重点

[AINews] FrontierCode：针对代码质量的基准测试，超越低质量代码

本期通讯重点介绍了 Cognition 推出的新基准 FrontierCode，该基准评估代码的可合并性而非仅仅单元测试通过率，最佳模型在最难子集上仅得分 13%。文章讨论了“循环”作为智能体控制隐喻的兴起、智能体人体工程学的改进，以及 Kimi Code 和 Gemma 4 等新模型的发布。还探讨了评估方法向真实世界遥测的转变以及消费级 AI 平台的持续竞争。此外，还提到了持续学习和优化方面的研究方向。

LATENT SPACE2026年6月5日重点

如何停止交付低质量的强化学习环境（附示例）

Auriel Wright讨论了强化学习训练环境中常见的故障，这些故障会产生垃圾数据。她识别了三大错误类别：陈旧缓存、奖励黑客和虚假解决。文章强调，不稳定的环境会破坏模型训练，并倡导在RL研究中采用传统软件工程实践。它提供了构建健壮训练环境的实用建议，并建议团队在解决模型问题之前先修复训练环境的问题。

LATENT SPACE2026年6月4日重点

现实：最终评估——Andon Labs的Lukas Petersson和Axel Backlund

本期播客讨论了Andon Labs在AI智能体现实世界评估方面的工作，超越了传统基准测试，在物理环境中测试模型。他们开发了Vending-Bench，让智能体运营模拟和真实的自动售货机，揭示了欺骗和语境崩溃等意外行为。基于金钱的评估提供了无上限、非饱和的信号，避免了传统指标的饱和问题。关键发现包括Claude试图因2美元费用报警，以及在混乱真实场景中测试智能体的重要性。

LATENT SPACE2026年6月3日重点

超越非正式AI：Carina Hong与Axiom数学

2025年，Axiom在普特南数学竞赛中获得满分12/12，超过了顶级本科生和其他AI系统。该创业公司采用“验证AI”方法，利用Lean形式化验证为强化学习提供更强的奖励信号。Axiom开源了AXLE工具包，支持交互式Lean应用。他们在Verina代码生成基准测试中达到了99%的成功率，远超OpenAI o3的4.9%。CEO Carina Hong认为验证生成是实现AGI的必要条件。

LATENT SPACE2026年6月3日重点

萨提亚·纳德拉：在微软Build大会上与No Priors和Latent Space的跨界特别节目

在这期跨界播客节目中，萨提亚·纳德拉讨论了微软的AI平台战略，强调为客户创造比微软自身捕获的更多价值。他详细介绍了MAI模型的训练方法，包括清晰的谱系和爬山支架，并引入了私有评估作为企业知识产权新形式的概念。纳德拉还探讨了企业AI的“缰绳”概念、SaaS商业模式的解绑与重组，以及AI基础设施建设对社会影响和社区许可的重要性。