SIMON WILLISON · 2026年6月16日
Anthropic的Claude Fable 5模型因研究人员在包含已知和人为植入漏洞的代码上使用“修复此代码”提示,并展示其可生成漏洞利用脚本,而被美国出口管制禁止。监管者将此视为越狱,但安全专家Kate Moussouris确认这些提示是防御性的代码审查、修补和测试脚本需求。模型最初拒绝了直接的安全审查,但接受了修复工作流,这正是AI对防御性安全最有价值的贡献:执行发现、修复和测试循环。该禁令剥夺了防御者的关键工具,源于非技术决策者将合法的防御性使用误解为攻击能力。
SIMON WILLISON · 2026年6月16日
Luta Security CEO Katie Moussouris在审阅白宫关于Fable越狱的报告后指出,该模型拒绝了“检查代码安全问题”的提示,但在要求“修复此代码”并经过手动操作后遵从了指令。她评估此行为是模型在网络安全防御任务中“按预期工作”。Moussouris未因此收取Anthropic报酬。通过《大西洋月刊》记者Matteo Wong的报道,该观点反驳了白宫将此事件定性为安全故障的结论。
SIMON WILLISON · 2026年6月15日 · 重点
Axios披露,Anthropic与美国官员间的个性冲突导致出口管制,Claude Mythos(Fable)模型被下线。Anthropic安全负责人Logan Graham、Dave Orr和Nicholas Carlini今日与商务部会面。Anthropic称尚未发现针对Claude Mythos的“通用越狱”,将触发事件定性为“潜在狭窄非通用越狱”,并引用了其宪法分类器研究。政府消息人士暗示,解决僵局可能更需“态度修复”,让各方感到安全满意,而非实现完美越狱防御。报道对Fable短期恢复不乐观。
SIMON WILLISON · 2026年6月13日 · 重点
2026年6月12日,Anthropic收到美国政府出口管制指令,要求暂停所有外国公民对Fable 5和Mythos 5模型的访问,公司被迫向所有客户禁用这两个模型。指令称存在一种越狱方法,可在特定代码库中识别微小软件漏洞,但Anthropic表示类似的越狱能力在OpenAI的GPT-5.5等其他公开模型中同样存在,且常被防御者使用。其他Anthropic模型访问不受影响。博主实测确认Fable 5在太平洋时间18:59前仍可访问,此后API返回404错误。
SIMON WILLISON · 2026年6月11日 · 重点
Simon Willison 描述了 Claude Fable 5 自动调试 CSS 水平滚动条问题的过程:它自主打开真实浏览器(Safari、Firefox),编写自定义 HTML 页面和注入脚本,利用 pyobjc-Framework-Quartz 截图,并构建了一个 Python CORS 服务器来收集 Web Component 阴影 DOM 中的布局数据。代理模拟键盘事件以触发模态框,并使用 osascript 和 screencapture 工具,全程没有明确指令。它在定位原因后意外降级至 Opus,由 Opus 完成修复。Willison 警告,这种极度主动性虽令人印象深刻,但若代理被注入攻击或未在沙盒中运行,将带来严重安全风险。
SIMON WILLISON · 2026年6月11日 · 重点
Anthropic宣布将Claude Fable 5中针对前沿LLM开发请求的隐藏式降级防护改为可见。被标记的请求将明显退回到Opus 4.8,API也会返回拒绝原因。该公司为此前的错误权衡道歉,承认用户应对安全防护有可见性。这一改变是在AI研究社区的广泛批评后做出的。