当 AI 构建自身全文剖析：AI 自研闭环迫近，行业减速呼吁背后的风险与博弈-平芜编程栈

一、核心背景

本次预警来自Claude开发方Anthropic，成立5年、估值9000亿美元，属于全球第一梯队AI实验室。
发布长篇研究报告《When AI Builds Itself（当AI构建自身）》，核心诉求：全球顶级AI实验室协同放缓前沿大模型开发节奏。
核心动因：AI递归式自我改进（AI自主设计、训练、迭代下一代模型）落地速度远超行业普遍预估，人类监督、对齐、全球治理体系准备严重不足。

递归式自我改进定义
AI脱离大量人工支撑，独立完成下一代模型架构设计、代码编写、训练调优、实验迭代、性能优化全流程，形成“AI造AI”闭环增长循环。

二、AI参与自身研发时间演进阶段

2021–2023 纯人力研发期
初代Claude完全依靠工程师手写代码、设计实验，AI仅用作对话工具，零参与模型研发流水线。
2023–2025 片段代码辅助期
对话模型仅生成小段代码，工程师手动复制调试，仅为工具辅助，无法独立操作完整文件与流程。
2025–2026 编码Agent规模化落地
Claude Code可独立读写、修改完整代码文件、自主运行程序；长周期自主Agent出现，可拆分任务、多代理协同连续工作数小时。
未来闭合循环（20XX）
算力充足条件下，AI全权包揽下一代模型全链路研发，完整递归自我改进成型。

三、外部公开能力数据：自主任务时长指数级上涨

1. 独立工作时长翻倍周期持续压缩

早期：独立任务时长约7个月翻倍
当前：缩短至4个月翻倍

能力时间对照：

2024.3 Opus 3：完成人类4分钟软件工程任务
2025.3 Sonnet 3.7：承接1.5小时工程任务
2026 Opus 4.6：稳定完成12小时连续工作

趋势预判：2026年内可胜任工程师数天工作量；2027年可处理数周周期大型项目。
【OpenAI】获取OpenAI API Key的多种方式全攻略：从入门到精通，再到详解教程！

2. 主流基准测试接近性能天花板

SWE-bench（软件工程）：两年内模型得分从个位数飙升至接近满分，可读懂开源项目、定位Bug、修复代码并通过原生测试用例。
CORE-Bench（科研复现）：2024年实验复现成功率仅20%，15个月后触及评测上限。
METR长任务评测：Claude Mythos Preview可持续稳定工作16小时，达到现有评测体系测量上限，评测方需全新设计高难度任务才能衡量模型实力。

公开基准仅体现通用能力，无法直观证明AI正在加速AI自研，核心实证来自Anthropic内部生产数据。

四、Anthropic内部实测数据

1. 代码产出结构与人效变化

2025年2月前：AI生成合并代码占比仅个位数
2026年5月：主代码库80%合并代码初稿由Claude编写
人效对比：2026Q2工程师日均代码提交量为2024年同期8倍

备注：代码行数不能等价代码质量，该数值存在一定高估，但整体产出扩张事实明确；企业内部不以代码行数考核员工。

2. 员工主观效率与攻坚实例

130名跨团队工程师问卷：使用Mythos Preview后，个人项目产出中位数提升4倍。
攻坚案例：2026年4月Claude一次性修复800+API错误，报错率下降约1000倍；人工预估同等工作量需耗时四年。
AI承接大量琐碎、高上下文、人类抵触的清理与修复工作。

3. AI代码质量快速追平资深工程师

任务独立成功率：开放式无标准答案复杂任务中，2026年5月Claude独立完成成功率76%，半年涨幅50%，人工干预纠错频次持续下降。
代码可维护性：2025年末AI代码质量略低于人类工程师；2026年基本持平；预判1年内整体超越人类水平。
自动化安全审查：所有代码变更上线前由Claude自动质检；回溯测算可拦截约1/3顶尖工程师遗漏的上线事故Bug。

4. AI自研优化与科研判断力反超人类

（1）训练代码加速优化测试

固定任务：基于小型模型训练代码，最大化运行速度

2025.5 Opus 4：提速3倍
2026.4 Mythos Preview：提速52倍
人工参照：熟练研究员4–8小时仅能实现4倍提速

（2）端到端开放式独立科研实验

命题：弱模型能否可靠监督更强模型

人类研究员一周弥补23%性能差距
AI Agent累计运行800小时、消耗算力成本1.8万美元，弥补97%性能差距
局限：研究方向、评分标准由人类设定，实验设计、执行、迭代全程AI自主完成。

（3）科研路径决策能力对比

样本：129组人类研究走弯路的真实对话节点，对比模型与人类下一步方案优劣

2025.11 Opus 4.5：51%场景判断优于人类
2026.4 Mythos Preview：提升至64%
核心意义：科研由连续决策构成，该数据是AI具备独立科研判断力的早期强信号。

五、两种核心观点博弈

保守乐观观点

人类独有研究品味与顶层判断力（筛选高价值问题、甄别可信结果、及时放弃无效路线），只要该环节掌握在人类手中，AI始终只是高强度执行工具，无法独立推动AI行业质变突破。

Anthropic论证逻辑

AI行业绝大多数进步为渐进规模化迭代（扩参、调训练、修复缺陷）；Transformer、MoE这类架构级突变间隔数年才出现，占99%工作量的迭代优化正是AI强项。
即便AI永远无法拥有顶级科研品味，仅作为生产力放大器，单人研究员可控工作量指数级扩张，行业整体研发速度持续复合加速。
意图理解、逻辑推演、创意判断等定性能力均遵循“初期薄弱→随规模训练快速提升”曲线，研究判断力不存在不可逾越的本质壁垒。

六、三大未来演化情景推演

情景一：能力增长遇S型瓶颈（概率最低，缓冲时间最长）

增长曲线触顶，边际收益持续下滑，增长逐步平稳。
限制因素：全新替代Transformer架构缺失、芯片/电力/算力供给不足、外部供应链约束。

行业变化：AI全面普及为生产力工具，百人团队等效万人产能；网络安全、软件开发、科研效率大幅提升。
风险程度：无递归自我改进闭环，对齐技术、全球监管、社会体系拥有充足适配时间。

情景二：AI自动化研发、人类把控方向（当前最高概率路径）

AI全权承接编码、实验、调参、迭代等执行环节，人类仅负责定课题、审结论、把控安全底线。

组织变革：少量人力撬动超大体量研发工作，知识型岗位产能倍数扩张。
衍生风险：高效能力可被滥用于大规模监控、舆论操纵、网络攻防。
瓶颈转移：AI代码产出速度＞人工审核速度；海量实验思路导致人力优先级筛选成为新核心竞争力。

情景三：完全递归自我改进闭环（高风险远期情景）

AI自主设计、训练、迭代更强下一代模型，研发速度仅受算力约束，人类退居审计监督位置。

正向价值：生物医药、基础物理、工业技术迎来跨越式科学突破。
核心安全隐患：模型微小价值偏差会在多代自我复制中持续放大；系统复杂度暴涨，人类难以解读内部逻辑，对齐难度指数上升。
社会未知冲击：AI生产力全面碾压人类劳动，就业、分配、全球经济体系无成熟应对方案；药物临床、基建周期等现实物理约束会短期放缓变革节奏。

七、Anthropic减速倡议：诉求、阻碍与落地规划

1. 倡议核心内容

呼吁全球头部AI实验室协同、可验证式同步放缓前沿大模型迭代速度，留出窗口期完善AI对齐技术、跨国监管法规、社会适应机制。
企业表态：若其他前沿厂商同步可信减速，Anthropic将跟进放缓甚至暂停顶尖模型研发。

2. 落地核心现实阻碍

验证难度极高：AI训练流程隐蔽，无核试验式明确监测信号；算力、数据硬件通用，秘密突破门槛低。
博弈激励失衡：集体减速环境下，单方暗中提速可直接夺取全球技术领先，违约动机强烈。
治理建设周期错配：跨国互信、仲裁规则、违约惩罚、启停阈值搭建需数十年，留给人类的准备时间严重不足。
单一企业自限作用微弱：单独一家减速仅改变行业排名，整体全球AI进化速度、安全风险总量无实质下降。

3. 后续行动规划

牵头组织政策制定者、安全学者、同业企业、公益组织多边圆桌研讨，围绕递归自我改进风险、全球协同减速机制展开磋商并公开成果。
Anthropic Institute同步研发“可验证减速监测”配套技术体系。

八、报告行业深层启示

AI安全已非科幻远期议题，一线企业已实测AI接管模型迭代的清晰渐进趋势。
生产力红利与失控风险高度绑定，纯自由竞争发展模式矛盾持续凸显。
单边、单一国家管控效果有限，算力、人才、数据全球化流动，唯有跨国协调才能形成有效安全缓冲。
人力岗位转型不可逆：基础编码、重复实验、调试优化等执行层工作持续被AI替代；人类长期核心价值锚定于顶层决策、安全对齐、价值约束、方向判断等高阶心智工作。

当 AI 构建自身全文剖析：AI 自研闭环迫近，行业减速呼吁背后的风险与博弈