回头看：Coding Agent 才是通往 AGI 的那条窄门-平芜编程栈

约 3200 字 / 阅读时间 12 分钟

一、开场：当年我们都猜错了方向

如果时间倒回 2023 年初，你去硅谷任何一场酒会，问一句"AGI 会从哪条路走出来？"，最常听到的答案有三种：多模态、具身机器人、通用 Agent 框架（AutoGPT 那一类）。几乎没有人会一本正经地告诉你：“是写代码的 Agent。”

那时候，Coding 在大模型语境里是一个"垂直能力"——和写诗、做表格、解数学题并列；GitHub Copilot 还在做"补全下一行"；AutoGPT 在 GitHub 上一周涨 10 万星，但实际跑起来连订一张机票都会陷入死循环。"写代码"这件事，被默认是 AGI 路线图上一个有用但不关键的支线任务。

三年过去，2026 年的春天，我们打开任何一家头部 AI 公司的内部周会纪要，几乎都会看到同一个关键词：Coding Agent。Anthropic 把它放在公司战略最上面一行；OpenAI 在去年秋天把 Codex 整建制独立成事业部；Google DeepMind 在今年 I/O 上把 Jules 提到了 Gemini 主舞台中央。

回头看，整个行业用三年时间，集体走完了一个"祛魅—承认—追赶"的过程。今天我们想聊的，正是这个 180 度的认知翻转：为什么是 Coding Agent？为什么是 Anthropic？以及，这对 ChatGPT 和 Gemini 又意味着什么？

二、为什么"写代码"是通往 AGI 的窄门

很多人到现在仍然不理解：写代码不就是一种特殊的"打字"吗？它和"通用智能"有什么必然关系？

要回答这个问题，我们需要先把 AGI 这个词从神坛上请下来，换一个更工程化的定义：AGI 是一个能在开放环境中，自主完成长链路目标的智能体。注意三个关键词——开放环境、自主、长链路。

按这个定义往回推，你会发现一个有意思的事实：人类世界里，唯一一个天然满足"开放、可执行、可验证、可累积"四要素的任务空间，就是软件工程。

第一，它是开放的。没有任何一份"题库"能穷尽真实世界的需求，每一个 bug、每一个新需求、每一次重构，本质上都是没见过的新问题。这正是模型最稀缺的训练养料。

第二，它天然可执行。和"写一篇好散文"不同，代码写出来要跑——能编译、能通过测试、能让用户点一下按钮真的弹出对话框。这意味着 Agent 每一步的行为，都有一个毫不留情的客观裁判站在终点。

第三，它可验证。单元测试、集成测试、生产环境的报错日志，构成了一套从微观到宏观的反馈回路。Agent 不需要等人类标注员上线，它可以自己给自己打分。

第四，它可累积。代码会被 commit，commit 会被 review，PR 会被合并，软件会迭代——整个过程在 Git 里留下了一份完整的"思维轨迹"数据集。这是人类社会中极少数被如此完整记录、又如此结构化的"长程决策"语料。

把这四点叠起来，你就会得到一个朴素但被严重低估的结论：软件工程是为强化学习量身定做的"训练道场"，也是 AGI 在物理世界里第一个可以真正"自我对弈"的领域。

围棋的 self-play 让 AlphaGo 走出了人类两千年没走过的妙手；而代码的 self-play，正在让 Coding Agent 走出超过普通工程师的解题路径——区别只在于，这次的棋盘不是 19×19，而是整个人类的数字基础设施。

三、Anthropic 的"窄门战略"：Claude Code 凭什么领先

要理解 Claude Code 的领先，得先承认一件事：Anthropic 这家公司，从基因层面就赌错过很多次，但赌对了一次最关键的——它把 Coding Agent 当成"主线"，而不是"产品线"。

2024 年下半年，当 OpenAI 还在为 GPT-4o 的语音 Demo 砸广告、Google 还在 Gemini App 里堆图片生成功能时，Anthropic 悄悄做了三件几乎"不性感"的事：

第一件，是把模型的训练目标，从"对话好"调成了"工具调用准+长程任务稳"。Claude 3.5 Sonnet 那一版发布时，市场一度认为它"在 benchmark 上不算最强"，但开发者很快发现：让它连续调 30 次工具、跨 10 个文件改一个 bug，它几乎不会"迷路"。这背后是 Anthropic 在 RLHF 之外，押注了大规模agentic RL（智能体强化学习）——用代码任务做 self-play，用真实 PR 做 reward。

第二件，是把交互界面从聊天框搬到了终端。2024 年 Q4 上线的 Claude Code 命令行版，是行业里第一个"以 CLI 为一等公民"的 AI 产品。这看起来是个极客玩具，实际是一次姿态宣示：Agent 的工位不在浏览器，而在开发者真实工作流的最深处——文件系统、Git、shell、CI/CD。

第三件，是开放上下文协议（MCP）。Anthropic 把 Claude Code 调用外部工具的方式标准化，让任何一个数据库、IDE、SaaS 都能在一晚上接进来。这一手既是技术规范，也是生态杠杆——它让 Claude 在事实上变成了"开发者世界的 USB-C 口"。

到 2025 年下半年，Claude Code 已经形成了一个外人很难追上的飞轮：

能力层：模型对长上下文（200K+）的注意力分布、工具调用的鲁棒性、对 diff 的 patch-level 编辑能力，都建立了肉眼可见的代差。
产品层：CLI + IDE 插件 + Web Workbench 三件套互相喂数据，Anthropic 内部用 Claude Code 写 Claude Code，迭代速度直接挂上了二档。
生态层：MCP 已经成了开发者社区的事实标准，连竞品都不得不"被动兼容"。
数据层：Anthropic 通过企业版拿到了海量真实软件工程任务的执行轨迹，这是花钱也买不到的强化学习语料。

更关键的是文化层面：Anthropic 全公司都在 dogfood 自己的 Coding Agent。创始人 Dario Amodei 在多次公开访谈里说过同一句话——"我们公司内部，已经有相当比例的代码不是人类写的第一稿。"这句话听起来像营销话术，但任何一个用过 Claude Code 写过中等规模项目的人，都会承认它至少不是夸张。

当一家公司把"自己用、自己改、自己卖"做成一条闭环时，它的进化速率是线性追赶者难以想象的。

四、ChatGPT 的"分心"：当一切都是优先级，就没有优先级

我们再来看 OpenAI 这边。坦白说，OpenAI 不是没有意识到 Coding Agent 的重要性——他们在 2025 年初就推出了 Codex Agent，年中又把 GPT-5 和 Codex 深度绑定。但意识到，不等于做到。

OpenAI 在 Coding Agent 这条赛道上落后的根本原因，不是技术，而是战略熵增。

打开 OpenAI 的产品列表你会看到：ChatGPT、GPTs、Sora、Voice Mode、Operator、SearchGPT、Codex、企业版、教育版、医疗版……每一个都"很重要"，每一个都在抢有限的算力、数据和顶级工程师的脑容量。Sam Altman 是天才的融资者和叙事大师，但也正因此，OpenAI 必须不断讲新故事——而新故事就意味着新方向、新产品线、新分心。

这种"全民产品公司"的姿态，导致 Codex 长期处于"重要但不紧急"的位置：

模型层：GPT-5 在通用对话和多模态上肯定更强，但在长程工具调用的稳定性上，开发者社区的实测口碑长期落后于 Claude。
产品层：Codex Agent 的 Web 形态先于 CLI，意味着 OpenAI 在战略上把它当作"另一个 ChatGPT 功能"，而不是"开发者工作流的中枢"。
生态层：OpenAI 在 MCP 出来一年后才宣布"兼容"，这一年里，整个开发者社区的工具生态已经默认围着 Anthropic 转。

更深一层的问题是用户画像的反向锁死。ChatGPT 7 亿周活的用户里，绝大多数是普通消费者；OpenAI 的产品设计、内容策略、安全策略，全部要服务于这群人。当一个产品同时要为初中生写作文、为律师查判例、为医生看片子，又要为高级工程师做 Coding Agent，它的内核就一定会被磨成"平均值"——而 Coding Agent 恰恰是一个不能取平均值的活儿。

OpenAI 的"广"，最终成了它在 Coding Agent 上的"窄"。

五、Gemini 的"工程师困境"：好牌打得拘谨

Google 的处境更让人惋惜。论资源、论顶级研究员密度、论手里捏着的工程数据（毕竟全公司每天产生的 CL 都是天量的训练语料），DeepMind 本该是 Coding Agent 这一仗里条件最好的玩家。

但 Gemini 的问题，是一个典型的"大公司困境"——好牌被拘谨地打了出来。

第一，是组织结构的撕裂。Gemini 模型组、Google Cloud Vertex AI、Android Studio、IDX、Project IDX/Jules——同一家公司里，至少有四五个团队都在做"AI + 代码"。每个团队都很优秀，但没有一个团队能拿到"我就是公司 Coding Agent 的主战场"这个授权。

第二，是合规与品牌的反向掣肘。Google 太大了，大到任何一个 Agent 都要先过法务、品牌、隐私、监管的层层审查。Claude Code 可以"放手让 Agent 直接改用户磁盘上的文件"，而 Gemini 的同类产品在很长时间里只能"建议你这样改，然后让你点确认"。在 Agent 这个领域，一次额外的人类点击，就是一次能力的腰斩。

第三，是"模型即一切"的路径依赖。DeepMind 是研究院基因的公司，长期相信"只要把模型做得足够强，应用层自然水到渠成"。这套逻辑在 AlphaGo 时代成立，在 LLM 早期也成立，但在 Agent 时代——模型只是引擎，工程化的"车身"和"路面"同等重要。Anthropic 用产品和协议补齐了这两块，而 Google 直到 2026 年才开始真正认真做。

Gemini 2.5 Pro 的代码能力其实并不弱，单点 benchmark 上甚至能与 Claude 互有胜负。但当一个开发者真正坐下来，要把它接进自己的项目、Git、CI、内部 RPC，他会发现：Claude 给的是一把"插上就能用"的电钻，Gemini 给的是一台"性能强劲但要自己接线"的电机。

六、回头看，我们究竟看到了什么

如果把 2023–2026 这三年，画成一张大模型公司的"主线任务地图"，你会看到一个很反直觉的景象：

那些把"对话"当作主线的公司，最后做出来的是更好的搜索引擎；那些把"多模态"当作主线的公司，做出来的是更好的素材生成工具；只有把"代码 + Agent"当作主线的公司，做出来的东西，最像一个"会自己长大的智能体"。

这背后藏着一个对 AGI 极其重要的认知升级：

AGI 不会从"更像人"的方向涌现，而会从"能持续在世界中产生因果"的方向涌现。

代码，是人类发明的、对数字世界"产生因果"的唯一通用接口。一个能熟练写代码、调工具、改基础设施的 Agent，本质上就是一个可以在数字世界自由行动的智能体。它今天能改一个前端按钮，明天就能改一段后端业务逻辑，后天就能写一个调用机器人手臂的 SDK，再后天就能为自己写一个新的训练 pipeline。

Coding Agent 是 AGI 的"复利支点"——它是少数几个能让 AI 自己提升自己生产力的杠杆点之一。

谁在这个支点上跑得快，谁就在 AGI 的复利曲线上提前抢到了位置。Anthropic 这一仗不是赢在某个具体的产品，而是赢在它最早一批人，看懂了这件事，并且把全公司压上去。

七、给从业者的三个朴素判断

聊到最后，作为一档面向产品和技术人的播客，我想留下三个不那么宏大、但更可执行的判断：

判断一：未来 18 个月，"工程师 + Coding Agent"的人效差，会拉到 5–10 倍。这意味着团队结构会被重写——不是"砍人"，而是同样规模的团队能做以前三倍的事；不会用 Agent 的工程师，竞争力会以肉眼可见的速度衰减。这不是危言耸听，是 Claude Code 用户群里正在每天发生的事实。

判断二：Coding Agent 的护城河，会从"模型能力"迁移到"环境接入"。谁拥有最完整的 MCP/工具生态、谁拥有最真实的企业工程语料、谁能让 Agent 在真实生产环境里被信任，谁就赢得下一阶段。这给了 Anthropic 之外的玩家——尤其是有完整云生态的 Google、有完整办公生态的 Microsoft、以及国内的阿里云/字节——真正反击的机会窗口。

判断三：通用 Agent 框架不会从天而降，它会"从 Coding Agent 长出来"。今天我们看 Claude Code 在终端里跑 shell、读文件、调 API、写测试、提交 PR——这套范式抽象一层，就是任何"Operator 类"通用 Agent 的最小骨架。未来的 Operator、未来的"个人 AI 同事"、未来的具身机器人 OS，本质上都是 Coding Agent 范式的换皮版本。这意味着 Anthropic 今天在 Coding Agent 上积累的工程范式优势，会在三年后兑现为整个 Agent 时代的入场券。