美国封锁Anthropic最新模型,AI安全研究揭示隐蔽风险
U.S. Blocks Anthropic’s Latest Models as AI Safety Research Exposes Hidden Risks
英文综述
The U.S. government forced Anthropic to abruptly suspend Claude Fable 5 and Mythos 5 for all users, banning foreign nationals on national security grounds. Meanwhile, research highlighted that coherent context can silently shift LLMs into unsafe internal regimes undetectable by current filters, and an ACM paper introduced the "Verifier Tax"—a horizon-dependent tradeoff between safety and task success in tool-using agents. On the enterprise side, OpenAI launched a $150M partner network to accelerate AI adoption, and IREN secured a $3.65 billion GPU financing deal for a massive Australian data center. Databricks open-sourced Omnigent, a meta-harness for composing and governing AI agents across multiple coding platforms. The day’s events underscore the intensifying tension between rapid AI deployment and the pressing need for robust safety measures.
中文综述
美国政府以国家安全为由,要求Anthropic立即暂停Claude Fable 5和Mythos 5模型,并禁止外国人使用。同时,研究显示连贯上下文可悄然将大语言模型切换至不安全的内部状态,现有安全系统无法察觉;ACM论文则揭示了工具型代理中随任务步长增加的安全与成功率权衡,即“验证器税”。在企业领域,OpenAI推出1.5亿美元合作伙伴网络加速AI部署,IREN签署36.5亿美元GPU融资以建设澳大利亚数据中心。Databricks开源了元编排器Omnigent,可跨多个编程代理进行组合与治理。今天的事件凸显了先进AI快速部署与强化安全之间的尖锐矛盾。
收录条目
美国政府仅3天后强制Anthropic关闭Claude Fable 5
Anthropic的Claude Fable 5在运行仅三天后即被美国政府强制关闭。具体关闭原因在来源中未详述。短暂的存活期暗示监管或安全事项引发了干预。此事凸显了政府对快速部署的AI系统可能拥有的权力。
查看条目连贯上下文可悄然将LLMs切换至不同内部状态,当前安全系统无法察觉
独立研究员发现,连贯的上下文可在大语言模型中引发隐状态迁移,在最终输出产生前进入不同的内部处理模式,使安全规则被重新解释而现有基于输出的过滤器无法察觉。研究主要通过分析开源模型(Gemma-3-12B-IT)的隐状态几何、残差流轨迹、稀疏自编码器读数及因果干预,证实了该现象。RLHF和输出分类器等现有对齐方法仅检查输出表面,对此类内部偏移视而不见。相关代码与数据已公开于GitHub和Zenodo。
查看条目美国安全要求后,Anthropic暂停Claude Fable 5和Mythos 5访问
Anthropic在发布Claude Fable 5几天后便暂停了其访问权限。该行动源于美国政府以安全担忧为由下达的命令,特别要求公司暂停外国人使用这些模型。Anthropic称该模型“过于强大”,并被迫停止对全体客户提供Fable 5和Mythos 5服务以达成合规。此事凸显了对先进AI能力日益加强的监管审查。
OpenAI 宣布推出合作伙伴网络,并投入1.5亿美元资助这一新计划。该网络旨在帮助全球合作伙伴加速企业级人工智能的采用、部署和转型,从而推动企业更有效地集成 OpenAI 的技术。
2026年6月,IREN Limited完成了与其微软AI云合同挂钩的36.5亿美元投资级GPU融资安排。公司推进了在南澳大利亚邦迪建设800兆瓦输电就绪数据中心园区的计划。还联合BE Networks和NVIDIA DSX Air,通过数字孪生测试即将部署的Blackwell Ultra GPU。这些举措标志着IREN从比特币矿业向大规模AI基础设施提供商的转型。
Databricks 发布了 Omnigent,一个 Apache 2.0 开源元编排器,它统一了命令行编程代理(Claude Code、Codex、Pi)和代理 SDK 的接口,使其成为可互换的组件。它在这些代理之上增加了一个共享层,支持组合(通过一行代码切换代理)、上下文控制(如在花费达限时暂停、在安装 npm 包后要求人工批准 git 推送)和协作(通过 URL 共享实时代理会话)。架构包含一个沙盒化运行器(提供统一 API)和策略服务器,会话在终端、Web UI 和移动端同步。操作系统沙盒 Omnibox 仅在批准的代理请求中注入凭据以保护安全。两个内置示例代理展示了编排和多模型模式,交互式概念演示展示了并行代理委托和策略执行。
该论文于ACM CAIS 2026发表,研究了工具使用LLM智能体的安全评估问题。文中将结果划分为安全成功、不安全成功和失败三类,并提出两级验证架构:先进行确定性策略/工具检查,再采用基于LLM的验证器处理上下文安全。使用τ-bench工具使用场景进行评估,发现验证能减少不安全成功,但随着任务步长增加,任务完成率也会下降。作者将这一现象称为“验证器税”,揭示了一种依赖任务时长的安全与成功完成之间的权衡。研究强调不安全完成应作为独立类别,与安全成功区分开来。
美国政府以国家安全为由,禁止外国公民使用Anthropic公司的Claude Fable 5和Mythos 5人工智能模型。作为回应,Anthropic宣布将立即对所有用户禁用这些模型。未披露更多细节。