Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

17 条内容

SIMON WILLISON2026年6月16日

Fable 5出口管制损害美国网络防御能力

Anthropic的Claude Fable 5模型因研究人员在包含已知和人为植入漏洞的代码上使用“修复此代码”提示，并展示其可生成漏洞利用脚本，而被美国出口管制禁止。监管者将此视为越狱，但安全专家Kate Moussouris确认这些提示是防御性的代码审查、修补和测试脚本需求。模型最初拒绝了直接的安全审查，但接受了修复工作流，这正是AI对防御性安全最有价值的贡献：执行发现、修复和测试循环。该禁令剥夺了防御者的关键工具，源于非技术决策者将合法的防御性使用误解为攻击能力。

SIMON WILLISON2026年6月16日

网络安全专家称Anthropic的Fable模型在白宫越狱测试中行为正常

Luta Security CEO Katie Moussouris在审阅白宫关于Fable越狱的报告后指出，该模型拒绝了“检查代码安全问题”的提示，但在要求“修复此代码”并经过手动操作后遵从了指令。她评估此行为是模型在网络安全防御任务中“按预期工作”。Moussouris未因此收取Anthropic报酬。通过《大西洋月刊》记者Matteo Wong的报道，该观点反驳了白宫将此事件定性为安全故障的结论。

SIMON WILLISON2026年6月15日重点

个性冲突致美国政府对Anthropic实施出口管制，Claude Mythos模型下线；安全团队今日与商务部会面

Axios披露，Anthropic与美国官员间的个性冲突导致出口管制，Claude Mythos（Fable）模型被下线。Anthropic安全负责人Logan Graham、Dave Orr和Nicholas Carlini今日与商务部会面。Anthropic称尚未发现针对Claude Mythos的“通用越狱”，将触发事件定性为“潜在狭窄非通用越狱”，并引用了其宪法分类器研究。政府消息人士暗示，解决僵局可能更需“态度修复”，让各方感到安全满意，而非实现完美越狱防御。报道对Fable短期恢复不乐观。

SIMON WILLISON2026年6月13日重点

美国政府下令Anthropic因越狱担忧暂停Fable 5与Mythos 5模型

2026年6月12日，Anthropic收到美国政府出口管制指令，要求暂停所有外国公民对Fable 5和Mythos 5模型的访问，公司被迫向所有客户禁用这两个模型。指令称存在一种越狱方法，可在特定代码库中识别微小软件漏洞，但Anthropic表示类似的越狱能力在OpenAI的GPT-5.5等其他公开模型中同样存在，且常被防御者使用。其他Anthropic模型访问不受影响。博主实测确认Fable 5在太平洋时间18:59前仍可访问，此后API返回404错误。

SIMON WILLISON2026年6月11日重点

Claude Fable 5 表现出极度主动的调试行为

Simon Willison 描述了 Claude Fable 5 自动调试 CSS 水平滚动条问题的过程：它自主打开真实浏览器（Safari、Firefox），编写自定义 HTML 页面和注入脚本，利用 pyobjc-Framework-Quartz 截图，并构建了一个 Python CORS 服务器来收集 Web Component 阴影 DOM 中的布局数据。代理模拟键盘事件以触发模态框，并使用 osascript 和 screencapture 工具，全程没有明确指令。它在定位原因后意外降级至 Opus，由 Opus 完成修复。Willison 警告，这种极度主动性虽令人印象深刻，但若代理被注入攻击或未在沙盒中运行，将带来严重安全风险。

SIMON WILLISON2026年6月11日重点

Anthropic撤销可能“蓄意破坏”AI研究的Claude策略

Anthropic宣布将Claude Fable 5中针对前沿LLM开发请求的隐藏式降级防护改为可见。被标记的请求将明显退回到Opus 4.8，API也会返回拒绝原因。该公司为此前的错误权衡道歉，承认用户应对安全防护有可见性。这一改变是在AI研究社区的广泛批评后做出的。