news 2026/5/12 3:23:34

【卷卷观察】Vibe Coding 和 Agentic Engineering 正在融合——Simon Willison 自己也慌了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【卷卷观察】Vibe Coding 和 Agentic Engineering 正在融合——Simon Willison 自己也慌了

Simon Willison 最近在 Heavybit 的播客上讲了一句让我背后发凉的话。

他说:"Vibe coding and agentic engineering are getting closer than I'd like."

翻译一下:"Vibe coding 和 Agentic Engineering 这两件事正在以我不太舒服的方式融合到一起。"

注意用词——他说的是 "than I'd like"。不是"我觉得这很有趣",不是"这是个值得关注的趋势"。是"比我想要的更近了"。

这人是 Django 联合创始人,Datasette 作者,在 AI 编程工具领域跟踪了两年多的深度使用者。如果他都说自己慌了,这事儿值得我们认真看看。

这篇文章在 Hacker News 上拿了 687 赞、768 条评论,是整个五月 AI 话题里讨论量最大的一篇。

结论先行:AI编码正在撕掉"辅助工具"的标签。随着模型越来越靠谱,即使是最谨慎的资深工程师也开始跳过代码审查这一步——不是因为懒,是因为模型确实很少在简单任务上出错。这个趋势正在把Vibe Coding(不审代码、靠感觉编程)和Agentic Engineering(专业工程师用AI提效)之间的界限彻底抹掉。对程序员来说,这是好事也是坏事——生产力暴涨,但信任链条正在无声断裂。


先把概念说清楚:Vibe Coding vs Agentic Engineering

这两个词如果你还不太分得清,咱先对齐一下。

Vibe Coding(氛围编码):Andrej Karpathy 在 2025 年初提出来的概念。就是你对着 AI 描述一下你想要什么,AI 生成代码,你跑一下看看对不对。如果不对,再跟它说"不对,你再改改"。整个过程你基本不看代码,甚至不一定会编程。重点是你靠"感觉"(vibe)来判断结果好不好,而不是靠技术评审。

Simon 对 Vibe Coding 的态度一直很清晰:对自己用的工具,随便搞。但如果是给别人用的软件,Vibe Coding 是极其不负责任的。因为别人的数据、别人的体验会因为你的 bug 而受损,而你可能压根不知道这些 bug 存在。

Agentic Engineering(智能体工程):Simon 自己造的词[^2]。意思是:你是一个有经验的软件工程师,你懂安全、懂可维护性、懂运维、懂性能优化。你使用 AI 编程 Agent 作为自己的"副驾驶",但最终决策权在你手里,你对代码质量负责。

核心区别在于——有没有人在把关。

到目前为止,这个区分是清晰的。但 Simon 发现,在他自己的日常工作中,这条线正在变得越来越模糊。


问题出在哪里:模型太靠谱了

Simon 说了一段特别真实的话:

"我知道,如果你让 Claude Code 写一个 JSON API 端点,它会做对。它不会搞砸这种事。你让它加自动化测试,它加。你让它写文档,它写。然后我就——不看这些代码了。"

这就是融合的起点。

不是因为你懒。是因为经验告诉你:对于一个标准的 JSON API + SQL 查询的任务,Claude Code 的正确率已经高到——你花 15 分钟逐行审查它的输出,几乎肯定是在浪费时间。

跟开车一样。新手时你紧握方向盘盯着路面,五年后你可以在高速上单手扶着,甚至偶尔瞥一眼手机。不是因为你的驾驶技术变差了,是因为你的脑子和身体已经建立了一个"大部分情况OK"的信任模型。

AI 编码也是一样。你用了 Claude Code 两个星期,写了 200 个 API 端点,它一个都没出错。到第 201 个的时候,你大概率不会再审了。

而这,就是 Simon 说的"融合"。你做的是 Agentic Engineering 的事,但你正在用 Vibe Coding 的方式对待它。


信任黑洞:代码没有"信用分"

问题不止在"不看代码"这个行为本身。更深层的问题是——代码正在失去它作为一种信号的能力。

Simon 说了一句话我特别认同:

"以前你在 GitHub 上看到一个项目——100 个 commit,漂亮的 README,全面的测试覆盖——你基本可以确定作者在这个项目上花了很多心思。"

"而现在,我可以在半小时内生成一个同样有 100 个 commit、完美 README、逐行测试覆盖的仓库。"

他举的例子很扎心:你看到两个项目长得一模一样,都有漂亮的文档、完整的测试、清晰的提交历史。一个是用心写了三个月的手工代码,另一个是一小时内 AI 吐出来的生成物。

你现在根本分不清。

他说:"Even for my own projects, I can't tell."——连自己写的项目,他都分不清哪些代码自己看过,哪些是 Agent 写的就直接合入了。

这不是技术问题,这是认知问题。代码作为一种质量信号,正在被 AI 的产出能力稀释到一个毫无意义的地步。

那什么信号还有价值?Simon 的答案是:使用记录。

"如果你有一个 Vibe Coding 做出来的东西,你自己已经每天用了两周——那比一个刚生成出来、基本没跑过的项目有价值得多。"

代码质量不再能从静态指标判断了。唯一的证据变成了"它真在真实世界里跑过,而且没翻车"。


把 Agent 当成另一个团队——这个类比有用,但也不够

为了缓解"不看代码就直接上线"的罪恶感,Simon 给自己找了个类比:

在大公司的时候,你要调用另一个团队提供的服务——比如"图片缩放服务"。你不会去读那个团队写的每一行代码。你会看他们的文档,用他们的 API 测试一下,然后就上线你的功能了。

如果出了 bug——你觉得性能不对,或者偶尔返回错误——你才会去翻他们的代码仓库。但大部分时候,你把它当成一个半黑盒

他说自己正在用同样的方式对待 AI Agent。

但这个类比有个致命缺陷——

"人类团队有信誉。你可以说'我信那个团队,他们以前做的软件很好,他们不会搞砸,因为搞砸会影响他们的职业声望'。Claude Code 没有职业声望。它不能为它写的东西负责。但它一次又一次地证明自己是对的。"

这就是 AI 编码的核心悖论:你给它的信任,不是基于它可以承担后果,而是基于你"觉得"它能做对。

而一旦这个"觉得"在某个关键时刻出错——这个错误可能比你看走眼一个人类团队严重得多。

Simon 把这个叫"异常化常态"(normalization of deviance)——每次 Agent 写对了你没审查的代码,你就会更信任它一点。每次信任增加一点,你离出一个大错就更近一步。


瓶颈转移:代码便宜了,什么变贵了?

这是一个被反复讨论但一直没被说透的问题:

如果你每天能写的代码量从 200 行变成 2000 行,哪些东西会崩?

Simon 的答案是——整个软件开发生命周期都是基于"人写代码很慢"这个前提设计的。

他引用了 Anthropic 设计负责人 Jenny Wen 的一个观察:

  • 设计流程之所以那么长、那么严谨,是因为如果设计错了、开发做了三个月才发现,代价太大
  • 但如果开发不再需要三个月了呢?如果错了改过来只要一天呢?
  • 那也许设计流程也可以变得更大胆、更快速

但反过来想,如果代码本身不值钱了,那什么值钱了?

  • 需求定义— 你得比任何时候都清楚你要的是什么
  • 评估体系— Agent 产出 2000 行代码后,你怎么知道它写对了?
  • 系统设计— 单点代码可以由 AI 写,但架构决策还是得人来拍
  • 信任链— 谁为 AI 写的代码负责?

这些都不会因为有了 Agent 就消失。它们只是从"你会不会写代码"变成了"你知不知道该让 AI 写什么"。


程序员还安全吗?

这个问题每篇文章都要答一遍。

Simon 的答案跟主流观点差不多:AI 是经验放大器,不是经验替代品。

他的理由有两个:

第一,跟 AI Agent 对话这件事本身,对大多数人来说是天书。你随便找一个人看他跟 Claude Code 的真实对话记录,那里面充满了"修复那个类型错误""把数据库查询改成 LEFT JOIN""用 SQLite FTS5 做全文搜索"。这些不是不会写代码的人能说得出来的。

第二,软件开发这件事本身难到超乎想象。"你给全世界所有的 AI 工具,我们要实现的目标仍然是极其困难的。"

他把这个类比成请水管工:你可以看 YouTube 学会修水管,但你不会想自己修。你宁愿花钱请个水管工。AI 编码也是一样——Matthew Yglesias 前两天的推文[^3]说得很好:"我决定了,我不想自己 Vibe Code。我想要专业软件公司用 AI 帮我做出更好、更便宜的软件产品,然后卖给我。"

那对于在职的程序员呢?

危险的不是被 AI 替代。危险的是你不会用 AI 而被别人替代。一个能用 Claude Code 把日产出从 200 行提到 2000 行的工程师,跟一个坚持手写每一行代码的工程师——在同一个岗位竞争,前者会把后者打得满地找牙。


那怎么办?

Simon Willison 没说"我们应该怎么做",但他的话里能读出几条:

1. 继续审代码,但审该审的。
如果 Claude Code 写一个 JSON API 端点的正确率是 99.9%,你把审查精力放在那 0.1% 的复杂场景上。重点是识别"什么是它可能出错的"。

2. 建立"使用过的才信"文化。
一个项目好不好,不能看它有多少测试、多漂亮的文档。你要看有人用没用过、用了多久、出了什么问题。运行中的代码 > 看起来好的代码。

3. 评估体系比代码本身更重要。
如果代码可以零成本生成,你花最多时间的应该是验证它对不对,而不是看它写得好不好。自动测试、集成测试、金丝雀发布、灰度上线——这些以前是加分项,现在是必需项。

4. 别把 AI Agent 当成人类来信任。
你可以把它当成一个高效的队友。但它不会为错误负责,不会有职业羞耻感,不会因为搞砸了一个项目晚上睡不着觉。信任可以有,但必须是有边界的信任。


最后一句话

Simon Willison 说"vibe coding and agentic engineering are getting closer than I'd like",这句话里最让人在意的不是"getting closer",是"than I'd like"。

他跟这些工具打了两年多的交道,写了上百篇分析文章,是这个领域最冷静的观察者之一。连他都说"than I'd like"——说明这件事的走向,已经超出他自己的预期了。

作为每天都在用这些工具写代码的人,我也有同感。Agent 确实越来越好用了。好用到我自己也在不知不觉中,从"每行都审"变成了"看起来差不多就行"。

这不是说 AI 工具不好。恰恰相反——是太好了,好到我们需要比以往任何时候都更警惕我们给它的信任。

代码可以变便宜。信任不能。


[^2]: Simon Willison, "What is Agentic Engineering?", simonwillison.net/guides/agentic-engineering-patterns/
[^3]: Matthew Yglesias 推文, 2026年5月5日: "Five months in, I think I've decided that I don't want to vibecode — I want professionally managed software companies to use AI coding assistance to make more/better/cheaper software products that they sell to me for money."

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/12 3:17:34

构建个人技能库:从零打造高效可复用的代码工具箱

1. 项目概述:从“技能库”到个人知识体系的构建最近在和一些同行交流时,发现一个挺普遍的现象:大家电脑里都散落着各种“宝贝”——可能是几年前解决某个棘手问题的脚本片段,一个精心调优过的配置文件模板,或者是一套自…

作者头像 李华
网站建设 2026/5/12 3:13:32

BLIVA多模态大模型:专攻图文混合理解,从原理到部署实战

1. 项目概述与核心价值如果你最近在折腾多模态大模型,特别是想让模型“看懂”图片里的文字并回答相关问题,那你很可能已经听说过或者尝试过BLIP-2、LLaVA这些明星项目。但在处理像路牌、文档、图表截图这类“富含文本的视觉问题”时,你可能会…

作者头像 李华