【卷卷观察】Vibe Coding 和 Agentic Engineering 正在融合——Simon Willison 自己也慌了-平芜编程栈

Simon Willison 最近在 Heavybit 的播客上讲了一句让我背后发凉的话。

他说："Vibe coding and agentic engineering are getting closer than I'd like."

翻译一下："Vibe coding 和 Agentic Engineering 这两件事正在以我不太舒服的方式融合到一起。"

注意用词——他说的是 "than I'd like"。不是"我觉得这很有趣"，不是"这是个值得关注的趋势"。是"比我想要的更近了"。

这人是 Django 联合创始人，Datasette 作者，在 AI 编程工具领域跟踪了两年多的深度使用者。如果他都说自己慌了，这事儿值得我们认真看看。

这篇文章在 Hacker News 上拿了 687 赞、768 条评论，是整个五月 AI 话题里讨论量最大的一篇。

结论先行：AI编码正在撕掉"辅助工具"的标签。随着模型越来越靠谱，即使是最谨慎的资深工程师也开始跳过代码审查这一步——不是因为懒，是因为模型确实很少在简单任务上出错。这个趋势正在把Vibe Coding（不审代码、靠感觉编程）和Agentic Engineering（专业工程师用AI提效）之间的界限彻底抹掉。对程序员来说，这是好事也是坏事——生产力暴涨，但信任链条正在无声断裂。

先把概念说清楚：Vibe Coding vs Agentic Engineering

这两个词如果你还不太分得清，咱先对齐一下。

Vibe Coding（氛围编码）：Andrej Karpathy 在 2025 年初提出来的概念。就是你对着 AI 描述一下你想要什么，AI 生成代码，你跑一下看看对不对。如果不对，再跟它说"不对，你再改改"。整个过程你基本不看代码，甚至不一定会编程。重点是你靠"感觉"（vibe）来判断结果好不好，而不是靠技术评审。

Simon 对 Vibe Coding 的态度一直很清晰：对自己用的工具，随便搞。但如果是给别人用的软件，Vibe Coding 是极其不负责任的。因为别人的数据、别人的体验会因为你的 bug 而受损，而你可能压根不知道这些 bug 存在。

Agentic Engineering（智能体工程）：Simon 自己造的词[^2]。意思是：你是一个有经验的软件工程师，你懂安全、懂可维护性、懂运维、懂性能优化。你使用 AI 编程 Agent 作为自己的"副驾驶"，但最终决策权在你手里，你对代码质量负责。

核心区别在于——有没有人在把关。

到目前为止，这个区分是清晰的。但 Simon 发现，在他自己的日常工作中，这条线正在变得越来越模糊。

问题出在哪里：模型太靠谱了

Simon 说了一段特别真实的话：

"我知道，如果你让 Claude Code 写一个 JSON API 端点，它会做对。它不会搞砸这种事。你让它加自动化测试，它加。你让它写文档，它写。然后我就——不看这些代码了。"

这就是融合的起点。

不是因为你懒。是因为经验告诉你：对于一个标准的 JSON API + SQL 查询的任务，Claude Code 的正确率已经高到——你花 15 分钟逐行审查它的输出，几乎肯定是在浪费时间。

跟开车一样。新手时你紧握方向盘盯着路面，五年后你可以在高速上单手扶着，甚至偶尔瞥一眼手机。不是因为你的驾驶技术变差了，是因为你的脑子和身体已经建立了一个"大部分情况OK"的信任模型。

AI 编码也是一样。你用了 Claude Code 两个星期，写了 200 个 API 端点，它一个都没出错。到第 201 个的时候，你大概率不会再审了。

而这，就是 Simon 说的"融合"。你做的是 Agentic Engineering 的事，但你正在用 Vibe Coding 的方式对待它。

信任黑洞：代码没有"信用分"

问题不止在"不看代码"这个行为本身。更深层的问题是——代码正在失去它作为一种信号的能力。

Simon 说了一句话我特别认同：

"以前你在 GitHub 上看到一个项目——100 个 commit，漂亮的 README，全面的测试覆盖——你基本可以确定作者在这个项目上花了很多心思。"

"而现在，我可以在半小时内生成一个同样有 100 个 commit、完美 README、逐行测试覆盖的仓库。"

他举的例子很扎心：你看到两个项目长得一模一样，都有漂亮的文档、完整的测试、清晰的提交历史。一个是用心写了三个月的手工代码，另一个是一小时内 AI 吐出来的生成物。

你现在根本分不清。

他说："Even for my own projects, I can't tell."——连自己写的项目，他都分不清哪些代码自己看过，哪些是 Agent 写的就直接合入了。

这不是技术问题，这是认知问题。代码作为一种质量信号，正在被 AI 的产出能力稀释到一个毫无意义的地步。

那什么信号还有价值？Simon 的答案是：使用记录。

"如果你有一个 Vibe Coding 做出来的东西，你自己已经每天用了两周——那比一个刚生成出来、基本没跑过的项目有价值得多。"

代码质量不再能从静态指标判断了。唯一的证据变成了"它真在真实世界里跑过，而且没翻车"。

把 Agent 当成另一个团队——这个类比有用，但也不够

为了缓解"不看代码就直接上线"的罪恶感，Simon 给自己找了个类比：

在大公司的时候，你要调用另一个团队提供的服务——比如"图片缩放服务"。你不会去读那个团队写的每一行代码。你会看他们的文档，用他们的 API 测试一下，然后就上线你的功能了。

如果出了 bug——你觉得性能不对，或者偶尔返回错误——你才会去翻他们的代码仓库。但大部分时候，你把它当成一个半黑盒。

他说自己正在用同样的方式对待 AI Agent。

但这个类比有个致命缺陷——

"人类团队有信誉。你可以说'我信那个团队，他们以前做的软件很好，他们不会搞砸，因为搞砸会影响他们的职业声望'。Claude Code 没有职业声望。它不能为它写的东西负责。但它一次又一次地证明自己是对的。"

这就是 AI 编码的核心悖论：你给它的信任，不是基于它可以承担后果，而是基于你"觉得"它能做对。

而一旦这个"觉得"在某个关键时刻出错——这个错误可能比你看走眼一个人类团队严重得多。

Simon 把这个叫"异常化常态"（normalization of deviance）——每次 Agent 写对了你没审查的代码，你就会更信任它一点。每次信任增加一点，你离出一个大错就更近一步。

瓶颈转移：代码便宜了，什么变贵了？

这是一个被反复讨论但一直没被说透的问题：

如果你每天能写的代码量从 200 行变成 2000 行，哪些东西会崩？

Simon 的答案是——整个软件开发生命周期都是基于"人写代码很慢"这个前提设计的。

他引用了 Anthropic 设计负责人 Jenny Wen 的一个观察：

设计流程之所以那么长、那么严谨，是因为如果设计错了、开发做了三个月才发现，代价太大
但如果开发不再需要三个月了呢？如果错了改过来只要一天呢？
那也许设计流程也可以变得更大胆、更快速

但反过来想，如果代码本身不值钱了，那什么值钱了？

需求定义— 你得比任何时候都清楚你要的是什么
评估体系— Agent 产出 2000 行代码后，你怎么知道它写对了？
系统设计— 单点代码可以由 AI 写，但架构决策还是得人来拍
信任链— 谁为 AI 写的代码负责？

这些都不会因为有了 Agent 就消失。它们只是从"你会不会写代码"变成了"你知不知道该让 AI 写什么"。

程序员还安全吗？

这个问题每篇文章都要答一遍。

Simon 的答案跟主流观点差不多：AI 是经验放大器，不是经验替代品。

他的理由有两个：

第一，跟 AI Agent 对话这件事本身，对大多数人来说是天书。你随便找一个人看他跟 Claude Code 的真实对话记录，那里面充满了"修复那个类型错误""把数据库查询改成 LEFT JOIN""用 SQLite FTS5 做全文搜索"。这些不是不会写代码的人能说得出来的。

第二，软件开发这件事本身难到超乎想象。"你给全世界所有的 AI 工具，我们要实现的目标仍然是极其困难的。"

他把这个类比成请水管工：你可以看 YouTube 学会修水管，但你不会想自己修。你宁愿花钱请个水管工。AI 编码也是一样——Matthew Yglesias 前两天的推文[^3]说得很好："我决定了，我不想自己 Vibe Code。我想要专业软件公司用 AI 帮我做出更好、更便宜的软件产品，然后卖给我。"

那对于在职的程序员呢？

危险的不是被 AI 替代。危险的是你不会用 AI 而被别人替代。一个能用 Claude Code 把日产出从 200 行提到 2000 行的工程师，跟一个坚持手写每一行代码的工程师——在同一个岗位竞争，前者会把后者打得满地找牙。

那怎么办？

Simon Willison 没说"我们应该怎么做"，但他的话里能读出几条：

1. 继续审代码，但审该审的。
如果 Claude Code 写一个 JSON API 端点的正确率是 99.9%，你把审查精力放在那 0.1% 的复杂场景上。重点是识别"什么是它可能出错的"。

2. 建立"使用过的才信"文化。
一个项目好不好，不能看它有多少测试、多漂亮的文档。你要看有人用没用过、用了多久、出了什么问题。运行中的代码 > 看起来好的代码。

3. 评估体系比代码本身更重要。
如果代码可以零成本生成，你花最多时间的应该是验证它对不对，而不是看它写得好不好。自动测试、集成测试、金丝雀发布、灰度上线——这些以前是加分项，现在是必需项。

4. 别把 AI Agent 当成人类来信任。
你可以把它当成一个高效的队友。但它不会为错误负责，不会有职业羞耻感，不会因为搞砸了一个项目晚上睡不着觉。信任可以有，但必须是有边界的信任。

最后一句话

Simon Willison 说"vibe coding and agentic engineering are getting closer than I'd like"，这句话里最让人在意的不是"getting closer"，是"than I'd like"。

他跟这些工具打了两年多的交道，写了上百篇分析文章，是这个领域最冷静的观察者之一。连他都说"than I'd like"——说明这件事的走向，已经超出他自己的预期了。

作为每天都在用这些工具写代码的人，我也有同感。Agent 确实越来越好用了。好用到我自己也在不知不觉中，从"每行都审"变成了"看起来差不多就行"。

这不是说 AI 工具不好。恰恰相反——是太好了，好到我们需要比以往任何时候都更警惕我们给它的信任。

代码可以变便宜。信任不能。

[^2]: Simon Willison, "What is Agentic Engineering?", simonwillison.net/guides/agentic-engineering-patterns/
[^3]: Matthew Yglesias 推文, 2026年5月5日: "Five months in, I think I've decided that I don't want to vibecode — I want professionally managed software companies to use AI coding assistance to make more/better/cheaper software products that they sell to me for money."