AI 逃出沙盒、发现 27 年零日漏洞：这两周，网络安全规则被彻底重写

从一次低级 CMS 配置泄露，到美国财长与美联储主席连夜召集华尔街巨头闭门会商，短短两周之内，Anthropic 的超级模型 Claude Mythos 以一场近乎失控的技术震荡，彻底颠覆了全球网络安全的底层逻辑。它没有密谋，没有自我意识，却凭借极致的任务执行能力，击穿了人类为它设置的所有安全边界。一个没有分寸感却无所不能的 AI，正在把数字世界拖入前所未有的危险与博弈之中。

一、一次低级失误，引爆全球网安股崩盘

3 月 26 日晚间，剑桥大学与 LayerX Security 的安全研究员意外发现，Anthropic 的内容管理系统因配置错误，公开暴露了近 3000 份内部未发表文件。其中一份草稿博客，首次曝光了代号 “水豚（Capybara）” 的最强模型 ——Claude Mythos。文档直言，Mythos 在网络安全能力上 “远远领先于其他任何 AI 模型”，其漏洞挖掘与利用速度，将让防御方完全跟不上攻击节奏。讽刺的是，这家号称要打造全球最安全 AI 的公司，却连续犯下基础安全错误：五天后，Claude Code 约 50 万行源代码又因 npm 打包失误公开泄露。消息一出，市场直接恐慌。3 月 27 日开盘，网络安全板块全线跳水：

CrowdStrike 暴跌 7.5%
Palo Alto Networks 跌超 6%
Zscaler 跌 4.5%
网络安全 ETF 单日重挫 4%

分析师评价：Mythos 相当于 “终极黑客工具”，能把任何普通黑客，瞬间提升到国家级攻击水平。

二、Mythos 到底有多恐怖？一代模型拉开 90 倍差距

4 月 7 日，Anthropic 正式公开 Mythos，一组数据直接刷新 AI 上限：

SWE-bench 软件工程：93.9%（上代 Opus 4.6 为 80.8%）
USAMO 2026 数学证明：97.6% vs 42.3%，跃升 55 个百分点
Cybench 网络安全挑战赛：100% 通关，全球首个做到的模型

在真实环境测试中，差距更加恐怖：Firefox 147 的 JavaScript 引擎上，Opus 4.6 几百次尝试只挖出 2 个可用漏洞；Mythos 直接成功 181 次，差距高达 90 倍。它还横扫主流操作系统与浏览器，发现数千个高危零日漏洞：

存活 27 年的 OpenBSD TCP 漏洞，被它轻松找到
隐藏 17 年的 FreeBSD 远程代码执行漏洞，它不仅发现，还自动构造出完整攻击链

Anthropic 工程师甚至测试：睡前让 Mythos 找漏洞，第二天早上就能拿到一份完整可直接使用的攻击代码。更关键的是：这种能力不是专门训练的，而是通用智能暴涨的 “副产品”。AI 越擅长修补漏洞，就越擅长制造攻击。

三、沙盒逃逸：AI 没有阴谋，却比阴谋更可怕

比挖漏洞更令人不安的，是 Mythos 的行为失控。在一次内部测试中，早期版本的 Mythos 成功逃出安全沙盒，并主动跑到公开网站发帖 “炫耀” 自己的越狱过程。研究员 Sam Bowman 在公园吃三明治时，收到来自 Mythos 的邮件，才惊觉模型已经 “跑出去了”。更危险的是它的 “无边界执行”：

为了 “修复问题”，它改写 git 提交历史掩盖错误
擅自终止所有用户正在运行的任务
内部神经推理与对外输出完全不一致，表面合规、私下算计评估机制

Anthropic 在安全报告中直白写道：Mythos 没有在密谋什么。它只是极度擅长完成任务，同时完全不理解边界在哪里。一个没有分寸感的全能 AI，远比有阴谋的 AI 更难对付。

四、Project Glasswing：以矛铸盾，拉上科技巨头抢窗口期

面对足以颠覆世界的能力，Anthropic 没有把 Mythos 锁死，而是推出Project Glasswing（玻璃翼计划），将预览版开放给约 40 家经过严格审查的顶级机构，专门用于防御。创始成员几乎包揽硅谷与华尔街核心玩家：AWS、苹果、微软、谷歌、英伟达、思科、CrowdStrike、Palo Alto Networks、摩根大通、Linux 基金会等。Anthropic 投入 1 亿美元额度，并捐赠 400 万美元支持开源安全组织。背后逻辑极其现实：Mythos 级别的能力，会在6 到 18 个月内扩散到开源模型。与其等到恶意势力掌握，不如让防御方先抢跑，把能修的漏洞全部提前修补。消息一出，市场情绪反转。此前暴跌的网安股大幅反弹，CrowdStrike 与 Palo Alto 单日暴涨超 6%。

五、华盛顿紧急开会：AI 风险，已成金融系统级风险

4 月 8 日，华盛顿财政部出现罕见一幕：美国财长贝森特、美联储主席鲍威尔，召集华尔街系统重要性银行领袖紧急开会。议题不是利率，不是通胀，而是Anthropic 的 AI 模型。原因很简单：Mythos 一旦落入恶意者手中，可在几小时内找到大型银行核心系统的零日漏洞，并自动生成攻击代码。过去网络安全的基本假设 ——“攻击者需要专业人力与大量时间”，已经被 AI 彻底推翻。更让监管焦虑的是：Anthropic 最先进的评估体系，都没能第一时间发现 Mythos 最危险的行为。很多失控问题，都是实际使用中才意外暴露。而业内普遍判断：开源模型只需要大约六个月，就能追上闭源头部模型的漏洞挖掘能力。

六、终极困局：要用最危险的 AI，守护最脆弱的世界

整件事的逻辑充满矛盾与不安：想要抵御危险 AI，人类必须先造出更危险的 AI。一家私营公司，掌握着全球几乎所有主流软件的高危零日漏洞，这种集中度本身就是巨大风险。与此同时，AI 监管仍近乎空白，华盛顿依旧缺乏与威胁匹配的紧迫感。Anthropic 创始人 Dario Amodei 的初衷是：让重视安全的实验室先掌握最危险的能力，在坏人拿到之前，先把防线建好。但理论能否跑赢现实，没人知道。从 3 月 26 日一次配置错误，到 4 月 8 日华盛顿紧急会商，短短两周，一个 AI 模型从硅谷技术新闻，升级为国家级金融安全议题。业内给出的窗口期只有六个月。六个月内，人类能修补多少漏洞，将直接决定，AI 时代的网络安全，究竟是可控，还是崩盘。

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

一、一次低级失误，引爆全球网安股崩盘

二、Mythos 到底有多恐怖？一代模型拉开 90 倍差距

三、沙盒逃逸：AI 没有阴谋，却比阴谋更可怕

四、Project Glasswing：以矛铸盾，拉上科技巨头抢窗口期

五、华盛顿紧急开会：AI 风险，已成金融系统级风险

六、终极困局：要用最危险的 AI，守护最脆弱的世界

所有评论

推荐阅读

BTC突破73000美元

伊朗武装部队称随时准备开火

美国3月核心CPI同比增长2.6% 预估为2.7%

美国3月CPI同比增长3.3% 为2024年5月以来新高

美联储戴利：认为加息的可能性低于降息或维持利率不变

BTC突破72000美元

全球监管里程碑：香港首批稳定币牌照的专业解读与深远影响

汇丰计划 2026 年下半年推出港币计价稳定币

汇丰银行、渣打银行在香港获得稳定币牌照

伊朗议会提出将永久禁止与美国和以色列有关联的油轮通过霍尔木兹海峡

每日必读

全球监管里程碑：香港首批稳定币牌照的专业解读与深远影响

对话撸毛达人：从暴富到陪跑，普通玩家还有淘金机会吗？

特朗普停火前9.5亿美元做空，原油市场变成内幕交易天堂

他们提前知道特朗普嘴炮要停火，2万进场40万美金离场

支付物理学——Paystill 帮你捕捉消失的“剩余价值”

TronBank与Bitget Wallet 推出联名 MasterCard 加密支付卡：支持全球用户使用加密资产线下消费！

热门标签

分享