Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

Anthropic 开源「防御框架」defending-code-reference-harness,用 AI 推理 + 自动化验证的闭环,让 AI 发现自己代码的漏洞。HN 当日 221 upvotes,背后的技术逻辑和争议一次性说清楚。
2026年6月4日,Anthropic 在 GitHub 上发布了一个名为 defending-code-reference-harness 的开源框架。顾名思义,这是一个用于 AI 驱动漏洞发现的工具——让 AI 系统主动寻找代码中的安全缺陷。
消息发布当天,在 Hacker News 上获得了 221 个 upvotes,稳居当日热门榜首。这个数字在 HN 的 AI 相关话题中算得上现象级传播。
但热闹之外,这个框架到底能做什么?边界在哪里?中文互联网目前还没有详细的技术解读。本文的目标,就是把这件事说清楚。
Anthropic 给这个项目的定位是 “AI-powered vulnerability discovery”(AI 驱动的漏洞发现)。它不是传统的静态代码分析工具(如 SonarQube、Semgrep),也不是通用的代码搜索引擎。它的核心能力是:利用大语言模型的推理能力,让 AI 主动探索代码库、识别潜在攻击面、生成漏洞假设、并通过自动化测试验证这些假设。
用一句话总结:让 AI 当自己的安全审计员。
根据 GitHub 仓库的描述,这个框架的工作流程大致分为三个阶段:
第一阶段:攻击面映射(Attack Surface Mapping)
框架首先会对代码库进行结构化扫描,识别出所有外部输入点——API 接口、文件 I/O、数据库查询、环境变量、用户上传内容等。这一步是传统工具也有的,但框架的优势在于它能理解每个输入点的上下文,识别出「这个参数理论上可以控制什么」。
第二阶段:漏洞假设生成(Hypothesis Generation)
这是核心环节。传统工具靠规则匹配(Rule-based),发现的是已知模式。框架用的是 LLM 的推理能力,给定攻击面信息后,让模型生成「这里可能有什么漏洞」的假设——包括注入类漏洞(SQLi、XSS、命令注入)、逻辑类漏洞(越权、竞争条件)、以及大模型特有的prompt注入风险。
第三阶段:自动化验证(Automated Verification)
生成的假设太多了,不可能全部人工审核。框架提供一个测试 harness,允许自动化生成针对每个假设的验证用例,然后用符号执行或模糊测试(Fuzzing)手段验证假设是否成立。
整个流程的关键创新点在于:它把 LLM 的推理能力和传统 Fuzzing 的验证能力做了一个闭环——LLM 生成假设,自动化工具验证假设,验证结果反过来又成为 LLM 的上下文输入,实现多轮迭代。
选择在这个时间点发布,有几个值得注意的背景:
背景一:AI 代码生成的渗透率已经足够高
2026年,Claude Code、Github Copilot、Cursor 等工具已经被主流开发团队广泛使用。AI 生成代码的渗透率在硅谷一线公司已经超过 40%(Anthropic 内部数据,非公开)。代码生成普及的同时,生成代码的安全问题也开始显现——prompt注入、越权逻辑、训练数据污染等新型风险开始出现在真实攻击案例里。
背景二:开源安全社区需要新的工具范式
传统的代码安全工具(Semgrep、CodeQL)基于规则,发现的是已知漏洞模式。它们在面对「LLM 生成的、上下文感知的漏洞」时,表现明显下降——因为这类漏洞往往没有明显的语法特征,需要理解业务逻辑才能发现。
Anthropic 的赌注是:用 AI 的推理能力来对付 AI 生成代码带来的新问题。
目前市场上做 AI 安全测试的产品大致分为两类:
第一类:传统安全工具的 AI 增强版
比如 CodeQL 加入了 AI 辅助分析能力,本质还是规则引擎的底子,AI 起到辅助作用。这类工具的优势是成熟、覆盖广,但面对新型漏洞时仍然被动。
第二类:垂直 AI 安全公司
如 HiddenLayer、Securify AI 等,专注做 AI-specific 威胁(对抗样本、模型投毒、prompt注入)的检测。它们在特定场景下效果很好,但覆盖范围有限。
Anthropic 这个框架的差异化定位是:通用代码库 + LLM 推理 + 自动化验证的完整闭环。它的目标不是替代 CodeQL,而是补足传统工具在「上下文感知漏洞」上的短板。
客观说,这个框架在以下场景中表现出色:
也需要清醒地列出边界:
做不到的事一:理解复杂业务逻辑
如果一个漏洞的根因在于「业务逻辑写错了」——比如一个电商系统里「用户能看到其他用户的订单」——这类漏洞没有语法特征,需要理解业务流程才能发现。框架在这种场景下表现一般。
做不到的事二:实时监控系统
这是一个离线的代码审计工具,不是 CI/CD 实时扫描工具。如果你想在每次 commit 时运行安全检测,这个框架不为此设计。
做不到的事三:替代人工安全审计
最终,这个框架的输出是「假设列表」,仍然需要人工审核来判断一个假设是否真的构成风险。安全审计员的价值反而被凸显了——他们不再需要从零开始找问题,而是专注于「判断问题是否真实存在」。
争议点:开源的动机
一个值得追问的问题是:Anthropic 开源这个工具,是否也是为了收集更多真实世界的漏洞样本,来反哺 Claude 的安全训练?Anthropic 没有明确回应这个推测。但从商业逻辑上说,可能性不低。
对于正在使用或考虑使用 AI 代码生成工具的团队,这个框架提供了几个明确的信号:
信号一:AI 安全将进入工具竞争的下半场
之前大家关注的是「AI 能不能写代码」,现在关注的是「AI 写的代码安不安全」。这个框架的出现,预示着 AI 安全工具赛道将迎来更多资本和人才。
信号二:安全审计的工作方式正在改变
传统安全审计依赖经验和对业务的深度理解。现在,审计员有了 AI 辅助工具,可以更高效地找到攻击面。但工具越强,对使用工具的人的要求也越高——你需要知道框架的边界在哪里,才能真正用好它。
信号三:开源的 AI 安全工具会越来越多
Anthropic 开源这个框架,降低了中小团队获取 AI 安全能力的门槛。接下来会看到更多大厂跟进开源 AI 安全工具,这是整个行业的基础设施升级。
Anthropic 的这个框架,核心价值不是「发现了多少漏洞」,而是一种新的安全审计范式:让 AI 生成假设,让机器验证假设,让人做最终判断。
这比「给 LLM 一个代码库让它找漏洞」要聪明得多——它把 LLM 的推理能力和自动化工具的执行能力做了分工,各自做自己最擅长的事。
对于普通开发者来说,现在最应该做的是:关注这个方向,但不要期望它能替代人工安全审计。把它放进你的工具箱,知道它的边界在哪里,这才是正确的使用方式。
下一步,HN 上另一个热帖「When AI Builds Itself: Our progress toward recursive self-improvement」也值得追踪——那是另一个维度的 AI 安全话题。
来源:Hacker News / GitHub (Anthropic)
发布日期:2026年6月4日