GPT-5.2重磅来袭：首次达到人类专家水平，程序员必学大模型新进展（建议收藏）-平芜编程栈

简介

GPT-5.2作为OpenAI最新模型首次达到人类专家水平，在GDPval测试中胜率达70.9%，抽象推理能力(ARC-AGI-2)从17.6%暴涨至52.9%。编程、数学和多模态能力全面提升，提供Instant、Thinking和Pro三个版本。模型代号"Garlic"，是OpenAI"Code Red"计划的重要成果，标志着AI技术竞争进入新阶段。

刚刚，GPT-5.2如期而至。

距离上一个版本GPT-5.1发布，才过去不到一个月。

这个节奏，在 OpenAI 的历史上，实属罕见。

还记得上周我写的那篇文章吗？

CEO Sam Altman 在 OpenAI 内部拉响「Code Red」红色警戒。

各种新功能开发暂停，集中精力干大事：让 ChatGPT 变得更好。

今天，是第一枪。

01｜首次达到人类专家水平

OpenAI 有一个叫 GDPval 的测试，专门评估 AI 在真实工作场景下的表现。

这个测试覆盖了 44 种职业，任务包括做 PPT、做表格、写报告这些实打实的「知识工作」。

GPT-5.2 Thinking在这个测试中拿到了 70.9% 的胜率或平局率。

GPT-5.2 Pro更高，达到了 74.1%。

这是什么意思？

在这些任务上，GPT-5.2有超过七成的概率做得比行业专家更好，或者至少一样好。

作为对比，上一代GPT-5 Thinking只有 38.8%，谷歌的Gemini 3 Pro是 53.3%，Anthropic 的Claude Opus 4.5是 59.6%。

OpenAI 说：

「这是我们第一个达到人类专家水平的模型。」

02｜ARC-AGI-2：从 17.6% 暴涨到 52.9%

如果说 GDPval 测的是「干活能力」，那 ARC-AGI-2 测的就是「聪明程度」。

这个测试专门衡量 AI 的抽象推理能力。

它被称为「AI 领域的图灵测试」，设计初衷就是让 AI 没法通过死记硬背作弊。

三周前，Gemini 3 Pro发布时拿到了 31.1% 的成绩，当时已经让整个 AI 圈震惊。

因为之前最好的GPT-5.1 Thinking也只有 17.6%。

而今天，GPT-5.2 Thinking直接拿到了 52.9% 的高分。

GPT-5.2 Pro更高，54.2%。

从 17.6% 到 52.9%，三倍提升。

这还只是一个小版本更新。

OpenAI，你认真的吗。

03｜编程、数学、多模态，全面提升

SWE Bench Pro，SWE bench Verified 的进阶版。

更难，覆盖四种编程语言。

GPT-5.2 Thinking在 SWE Bench Pro 上准确率 55.6%。

在 SWE bench Verified 上是 80%。

数学也很猛。

在 AIME 2025（美国数学竞赛），GPT-5.2 Thinking直接满分，100%。

没有使用任何工具，纯推理，满分。

这是第一个在这个测试上拿满分的 AI 模型。

多模态方面，OpenAI 表示错误率大约减半。

CharXiv Reasoning（科学图表推理）准确率 88.7%。

ScreenSpot Pro（软件界面理解）是 86.3%。

说人话：理解图表、屏幕截图、技术文档，更靠谱了。

另外值得一提的是，GPT-5.2 Thinking相比前代，幻觉减少 30%。

OpenAI 今天总算实在了一回：

「和所有模型一样，GPT-5.2并不完美。对于任何重要的事情，请复核它的答案。」

这种坦诚，我喜欢。

04｜三个版本，今天上新

GPT-5.2有三个版本。

Instant，快。

日常问答、写作、翻译，用它就够了。

OpenAI 说它保持了GPT-5.1那种温暖的对话风格，但解释更清晰，重点信息会提前呈现。

Thinking，深。

编程、文档分析、数学推理、规划决策，这些需要「思考」的任务交给它。

Pro，强。

最聪明，也最慢。

适合那些「答案质量比等待时间更重要」的场景。

ChatGPT 付费用户（Plus、Pro、Business、Enterprise）今天开始陆续推送。

免费和 ChatGPT Go 用户明天开放。

GPT-5.1会作为旧版模型（Legacy Model）保留三个月，之后下线。

API 和 Codex，今天就能用。

GPT-5.2API 定价是 1.75 美元/百万输入 tokens，14 美元/百万输出 tokens。

比GPT-5.1贵了约 40%。

但 OpenAI 说，因为 token 效率提升，实际完成任务的总成本可能反而更低。

最后，附上一个模型对比，高清大图，拿走不谢。

05｜代号：「大蒜」

今天发布GPT-5.2，并不突然。

我昨天的文章里已经写了。

ChatGPT 官方账号也有预热。

发了两张图，是 Sam Altman 在厨房里炒大蒜。

答案揭晓。

这个模型的内部代号叫「Garlic」，大蒜。

OpenAI 的应用 CEO Fidji Simo 说，GPT-5.2不是 Code Red 的直接产物，已经开发了好几个月。

「我们一周内做不出这样的模型。」

但她也承认，Code Red 确实帮助 OpenAI 把资源集中到了 ChatGPT 上。

Sam Altman 预计会在明年一月份解除 Code Red 红色警戒状态。

看来，这场厮杀，还会继续下去。

AI 的竞争，比我们想象的还要激烈。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

达人运营只看曝光？KOL/KOS/KOC/KOX效果量化+线索精准抓，提升获客能力

GPT-5.2重磅来袭：首次达到人类专家水平，程序员必学大模型新进展（建议收藏）

01｜首次达到人类专家水平

02｜ARC-AGI-2：从 17.6% 暴涨到 52.9%

03｜编程、数学、多模态，全面提升

04｜三个版本，今天上新

05｜代号：「大蒜」

如何学习AI大模型？

学习路线

👉学会后的收获：👈

收藏！2025大模型人才洗牌真相：28%离职率下，小白/程序员该咋突围？

AutoGPT错误日志分析技巧：快速定位问题根源

CUDA安装与cuDNN配置联动设置要点

AutoGPT支持gRPC通信协议了吗？性能对比测试

2025避坑指南：零基础转型网络安全工程师的高效路径