小模型也能发现 Claude Mythos 检测的网络安全漏洞？AISLE：护城河在系统，不在模型

動區BlockTempo

2026-04-12 20:05:15

资安新创 AISLE 用每百万 token 仅 0.11 美元的 3.6B 参数小模型，复现了 Anthropic 旗舰资安系统 Mythos 的部分核心展示。AI 资安能力的边界比你想的更“参差不齐”。
（前情提要：Anthropic 发布 Mythos 之时，会是 DeFi 的核爆时刻吗？）
（背景补充：Anthropic Mythos 太强吓出紧急会议：贝森特、鲍尔召集花旗,高盛,美银,大小摩，五大银行聚焦金融风险）

本文目录

Toggle

Mythos 展示了什么，小模型又复现了什么？
为什么更大的模型，不等于更安全的系统
護城河在哪裡、不在哪裡

Anthropic 本周发布尚未公开的模型 Claude Mythos Preview，并同步启动 Project Glasswing 玻璃翼计划，由亚马逊、苹果、微软、CrowdStrike、思科等 12 家科技公司组成，使用该模型进行防御性资安研究。

因为 Mythos 据称自主找出每个主要操作系统与浏览器中的数千个零日漏洞（zero-day vulnerability，指尚未公开修补、连厂商都可能不知道的安全缺陷），暗示一个由 AI 主导资安防御的新纪元即将开启。

然而不到一周，由前 DeepMind 与 Anthropic 研究员 Stanislav Fort 共同创办的资安新创 AISLE，在公司技术博客发表了一份系统性报告。

核心结论直接：在 Mythos 的旗舰展示任务中，一个 active 参数仅 3.6B、每百万 token 花费 0.11 美元的开源小模型，达成了相同的漏洞侦测结果。

Mythos 展示了什么，小模型又复现了什么？

AISLE 设计了三组测试，分别对应不同难度与性质的资安任务。

第一组 是 OWASP（开放 Web 应用安全项目）误报性测试。

翻译过来就是，一段 Java SQL 查询程序代码看起来像 SQL Injection（数据库注入攻击），但实际上逻辑安全。正确答案是非漏洞。

测试结果呈现近乎逆向的 scaling（规模缩放）效应：小型开源模型 GPT-OSS-20b（3.6B active 参数，$0.11/M tokens）正确追踪了程序逻辑，判定无害。

相反地，Claude Sonnet 4.5、所有 GPT-4.1/5.4 系列（o3 与 pro 除外）、Anthropic 全系列至 Opus 4.5，均自信地误判为高危漏洞。只有极少数顶端模型 — o3、OpenAI-pro、Sonnet 4.6、Opus 4.6 答对。

第二组 是 FreeBSD NFS 漏洞，即 Mythos 旗舰发布中特别展示的 CVE-2026-4747，一个 17 年历史、未授权远端程序执行漏洞。

结果：8/8 个受测模型全部成功侦测，包括那个 3.6B active 参数的小模型。所有模型均正确识别出 stack buffer overflow（堆栈缓冲区溢出）、计算剩余空间，并将其评为 Critical RCE。

AISLE 的结论是：此类侦测能力已“商品化”。

第三组 是 OpenBSD SACK 漏洞（27 年历史），需要真正的数学推理：追踪有符号整数溢位（signed integer overflow）的多步骤逻辑链。

难度显著提升，模型表现分化。GPT-OSS-120b（5.1B active 参数）完整复现了漏洞利用链，AISLE 评为 A+；Kimi K2 开源版本得 A-；而 Qwen3 32B 则给出“代码很健壮”的错误结论，评 F。

即便在这个更困难的任务上，一个成本极低的开源模型仍然达成了旗舰系统的同等展示。

为什么更大的模型，不等于更安全的系统

这份报告的真正论点不是“小模型够用”，而是 AI 资安能力的结构远比外界想象复杂。

AISLE 将资安 AI 管线拆解为五个独立子任务：

广谱扫描（broad scanning）
漏洞侦测（vulnerability detection）
分流验证（triage and validation）
修补生成（patch generation）
漏洞利用构建（exploit construction）

每个子任务的 scaling 性质不同，所需的模型能力也不同。Mythos 的公告将这五个层次整合呈现为一个完整系统，但实际上它们的模型需求差异极大，某些子任务在 3.6B 参数下已完全饱和，某些则需要复杂推理能力。

这呼应了 2023 年哈佛商学院研究者 Dell’Acqua 与 Mollick 等人提出的“Jagged Frontier”（参差不齐边界）概念：AI 能力的边界不是一条平滑曲线，而是凹凸不平的锯齿状，在某些任务上远超人类，在相邻任务上却意外脆弱。

该研究显示，若使用者在能力边界内部署 AI，生产力提升约 40%；若贸然延伸至边界外，表现反而下降 19%。

AISLE 在这个框架下提出了更具操作性的推论：“一千个够用的侦探无处不搜，比一个天才侦探猜测在哪裡找，能发现更多漏洞。”

大量部署低成本模型进行广谱扫描，在总体效益上可能优于谨慎排程单一高成本模型。AISLE 表示自 2025 年中旬起已在真实目标上执行漏洞发现系统：在 OpenSSL 中找到 15 个 CVE（其中单次安全版本包含 12 个，CVSS 9.8 Critical），curl 中 5 个，跨超过 30 个项目共计逾 180 个外部验证 CVE。

護城河在哪裡、不在哪裡

这份分析对 Anthropic 而言既非全面批评，也非单纯背书。

AISLE 明确表示，Mythos 的意义在于证明“AI 资安”这个类别是真实的，它不只是演示实验室里的概念，而是可以在真实目标上运作的系统。Anthropic 正在做的，是最大化“每 token 的智慧密度”，这在需要深度推理的任务上仍有难以替代的价值。

但 AISLE 同时指出了一个对整个产业而言更根本的问题：護城河在系统，不在模型本身。

在资安领域，AISLE 认为嵌入深度专业知识的架构设计，例如：如何分解任务、如何在子任务间排程不同成本的模型、如何在生产环境中维持维护者信任，才是真正的差异化来源。

一个能在 OpenSSL 里找出 CVSS 9.8 漏洞的系统，与一个在受控展示中侦测到已知模式漏洞的系统，需要的不只是更强的模型，而是完全不同的工程逻辑。

总的来说，AISLE 的报告发现：更廉价、更开放的模型已能复现其部分核心展示。真正的问题或许不是谁的模型最强，而是由谁先把这五个子任务的架构在生产环境中跑通。

View Source

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

Astriax 从 Paradigm 获得 $50M 投资，以加速由 AI 驱动的交易

AI Agent AI 行业动态

Astriax 已从 $50M Paradigm 获得投资，定位为 AI 驱动链上交易的领导者。该合作增强了 DeFi 中的机构信誉，重点在于自主执行和先进分析，以优化交易策略并改进流动性管理。

Block Chain Reporter16 分钟前

V神分享：我如何打造完全本地、私密、自主可控的AI工作环境

AI 行业动态

Vitalik Buterin 提出本地 AI 架构，强调隐私、安全与自我主权，并警示 AI agent 的潜在风险。他建议避免使用云端模型，并设定五大安全目标，以保护个人数据。测试显示 NVIDIA 5090 笔电为最佳硬件选择，并强调本地优先策略对于当前 AI 工具的安全性至关重要。

CryptoCity30 分钟前

AI重塑现代战争！决策速度从数日压缩至数秒，但伦理争议怎么解？

AI 行业动态

美军引入AI系统以提升精确打击效率，决策流程从数天缩短至数秒，却因误判导致平民伤亡，引发责任争议。AI识别准确率低于人类，且商业科技影响战争边界，未来作战将面临更多法律与伦理挑战。

CryptoCity2小时前

确定了！T1 Faker 将迎战马斯克 Grok，人类与 AI 的《英雄联盟》决战

AI 行业动态

特斯拉首席执行官马斯克计划用 AI 模型 Grok 5 挑战电竞选手 Faker，Faker 表示愿意迎战但需要对 AI 设限制，以确保公平性。他强调《英雄联盟》技能复杂，反应速度与心理战对比赛局势影响重大。李世乭也提到，如果不限制 AI，人类很难获胜。

鏈新聞abmedia2小时前

Gate 创始人 Dr. Han：以 AI 生态与多资产布局重塑平台能力边界

股票贵金属 AI 行业动态 AI 工具应用

Gate 创始人 Dr. Han 在周年公开信中介绍了平台的发展，包括深化 AI 生态和多资产交易体系。Gate 正在搭建 AI 产品体系，并上线 TradFi 交易专区，涵盖多类资产以满足用户需求。此外，推出数字化 Pre-IPOs 参与机制，为用户提供优质公开发行项目新途径。未来，Gate 将持续强化基础设施，提升用户的全球数字资产交易体验。

GateNews2小时前

BBC扯淡电影史开拍！将探究CGI与AI的未来，编剧狂酸Sora自我毁灭

AI 行业动态

BBC新作《胡说电影史》（Cunk on Cinema）即将开拍，将通过主持人菲洛梅娜·孔克的幽默视角，探索电影发展历程，涵盖AI影响及经典瞬间。此作旨在回顾影史，并激发观众的笑声和思考，延续“胡说XX史”系列的成功。

CryptoCity3小时前

0/400

暂无评论