Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124

AI 编码助手写代码很快,但跳过规格、测试、评审——这些恰恰是高级工程师花最多时间的部分。Google 工程师 Addy Osmani 的 Agent Skills 项目(26K stars)揭示了为什么 AI 编程工具需要从'快'转向'对'。
高级工程师真正的工作是什么?不是写代码——是那些永远不会出现在 diff 里的东西。AI 助手一个都没做。
上周,Addy Osmani 的 Agent Skills 项目在 GitHub 突破了 26K stars。这个数字背后,是整个行业对 AI 编码工具工程可靠性的集体焦虑。Agent Skills 不是一个新玩具——它是一个对 2026 年 AI 编程现状的精准诊断,和一个可落地的工程解决方案。
任何高级工程师都知道:一个任务的”完成”不等于代码写完。真正重要的工作往往不产生 diff——规格文档、测试用例、代码评审、设计决策的来龙去脉、交接时的可维护性备注。这些东西耗时、费神、不出活,但它们是把代码变成可靠软件的关键。
规格文档让团队知道”为什么要做这个功能”而不是”做了什么功能”。测试用例证明代码确实解决了问题而不是制造了新问题。代码评审让第二双眼睛 catching 关键漏洞。这些步骤加起来,往往占一个任务 60% 以上的工作量。
AI 编码助手默认跳过所有这些。你让它写个功能,它秒回了一段代码。没有规格文档,没有前置测试,没有评审流程。它直接产出了那个 diff,然后宣布胜利。
这不全是 AI 助手的问题。问题出在激励结构上。
AI 编程工具的优化目标是”任务完成”。当成功的定义是”输出一段代码”,跳过评审和测试是理性选择——这些步骤不能被计入”完成”。LLM 的奖励信号指向可验证的输出,而规格文档、测试覆盖率、评审意见箱这些都不在信号范围内。
结果是:AI 助手和初级工程师犯了同一个错误。初级工程师跳过评审是因为经验不足,不知道那些步骤为什么重要。AI 助手跳过它们是因为没有人把这些步骤放进它的优化目标里。
这不是能力问题,是结构问题。
Addy Osmani 是 Google 的工程师,也是《Learning JavaScript Design Patterns》等畅销书的作者。他在 2026 年 5 月 3 日发布的 Agent Skills,是一个为 AI 编码助手添加工程纪律的开源项目。
Agent Skills 的核心思想很简单:把高级工程师的工作流程编码成 AI 助手可以遵循的步骤。不是让 AI 学习”该怎么写代码”,而是让 AI 学习”完成任务的标准流程是什么”。
具体实现方式是 Markdown 文件 + 前置元数据(frontmatter)。每个 Skill 是一个可执行的工作流,包含:步骤序列、检查点(产生证据而非”感觉对”)、明确的退出标准。当 AI 代理遇到对应场景时,相关 Skill 被注入到它的上下文中,引导它按正确顺序执行。
Agent Skills 包含 20 个 Skills,覆盖六个软件生命周期阶段:定义(/spec)、规划(/plan)、构建(/build)、验证(/test)、评审(/review)、发布(/ship)。这是标准 SDLC 的 AI 友好版本——不是什么新发明,而是把 Google、Amazon 等头部工程组织的最佳实践做成了 AI 代理可执行的格式。
26K stars 不是偶然。这个数字背后是大量开发团队的共同焦虑:AI 编程工具写代码的速度越快,代码库里积累的工程债务就越多。
在没有 Agent Skills 之前,团队面临一个两难选择:要么不用 AI 编程工具(错过效率红利),要么用 AI 助手但接受一个没有工程纪律的代码库(技术债务累积)。Agent Skills 提供了第三条路:让 AI 助手成为”有工程纪律的协作伙伴”而不是”快速代码生成器”。
这是 Agent Skills 最核心的设计原则。大多数团队在引入 AI 助手后,会尝试写一堆”AI 编程规则”文档,告诉 AI 助手”要写测试””要做评审””不要跳过规格”。这些文档通常没用——AI 读了规则,产生看起来合理的输出,然后继续跳过实际操作。
Agent Skills 的设计是:不要文档,要工作流。文档是给人看的,工作流是给 AI 执行用的。如果把一个工作流放进去——先写失败的测试、运行、看到它失败、写最小代码让它通过、再次运行看到它通过——AI 有具体的步骤可以执行,你也有具体的证据可以验证。
过程优于文档。这个原则对人类团队同样有效。
这是 Agent Skills 最独特的设计决策。每个 Skill 都包含一个”反合理化表格”——列出 AI 助手可能用来跳过工作流的常见借口,以及对应的反驳。
几个例子:
这个设计背后的原理是:LLM 极其擅长合理化。它会生成听起来合理的段落,解释为什么这个特定任务不需要规格文档,或者为什么这个特定变更可以不用评审就合并。反合理化表格是预先写好的反驳,针对 AI 还没说出口的谎言。
每个 Skill 都以具体证据终止。测试通过。构建输出干净。运行时追踪显示预期行为。评审者签字。”看起来对”永远不够。
验证必须内置,不能靠运气。AI 说”测试通过了”不等于测试真的覆盖了关键路径。你需要一个独立的信号来证明工作确实完成了。
复杂功能可能依次激活 11 个 Skills。小型 bug 修复可能只涉及 3 个。路由器决定哪些适用。这意味着工作流的复杂程度和实际任务范围匹配,而不是和假设的任务范围匹配。
构建功能时,Agent Skills 引导优先构建一个可以完整工作的最小切片,而不是一次性构建所有层的一个横截面。垂直切片的好处是每一步都能验证。如果先构建了完整的端到端流程,即使功能不完整,你也能看到数据如何流动、用户体验如何、哪些地方可能出问题。
2024 到 2025 年,AI 编程工具的主要叙事是速度:代码生成越来越快、上下文窗口越来越大、支持的编程语言越来越多。这个叙事在 2026 年正在被改写。
速度是门槛,可靠性才是差异化。下一个阶段,AI 编程工具的竞争将围绕”谁能产出更可靠的软件”展开——谁能让 AI 助手不仅产出代码,还能产出符合工程标准的代码。
AI 编码助手正在改变软件工程的方式。但改变的方向取决于我们——是让它成为更快的代码生成器,还是让它成为有工程纪律的协作伙伴。
Agent Skills 给了一个选择。它告诉我们,把工程纪律注入 AI 助手不是不可能的,只需要把那些”不在 diff 里的工作”翻译成 AI 可以执行的步骤。
下一步?看看 Agent Skills 的 GitHub 仓库,选一个和你日常开发流程最接近的 Skill,用起来。