news 2026/4/2 21:39:54

GPT-5.2重磅来袭:首次达到人类专家水平,程序员必学大模型新进展(建议收藏)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT-5.2重磅来袭:首次达到人类专家水平,程序员必学大模型新进展(建议收藏)

简介

GPT-5.2作为OpenAI最新模型首次达到人类专家水平,在GDPval测试中胜率达70.9%,抽象推理能力(ARC-AGI-2)从17.6%暴涨至52.9%。编程、数学和多模态能力全面提升,提供Instant、Thinking和Pro三个版本。模型代号"Garlic",是OpenAI"Code Red"计划的重要成果,标志着AI技术竞争进入新阶段。


刚刚,GPT-5.2如期而至。

距离上一个版本GPT-5.1发布,才过去不到一个月。

这个节奏,在 OpenAI 的历史上,实属罕见。

还记得上周我写的那篇文章吗?

CEO Sam Altman 在 OpenAI 内部拉响「Code Red」红色警戒。

各种新功能开发暂停,集中精力干大事:让 ChatGPT 变得更好。

今天,是第一枪。


01|首次达到人类专家水平

OpenAI 有一个叫 GDPval 的测试,专门评估 AI 在真实工作场景下的表现。

这个测试覆盖了 44 种职业,任务包括做 PPT、做表格、写报告这些实打实的「知识工作」。

GPT-5.2 Thinking在这个测试中拿到了 70.9% 的胜率或平局率。

GPT-5.2 Pro更高,达到了 74.1%。

这是什么意思?

在这些任务上,GPT-5.2有超过七成的概率做得比行业专家更好,或者至少一样好。

作为对比,上一代GPT-5 Thinking只有 38.8%,谷歌的Gemini 3 Pro是 53.3%,Anthropic 的Claude Opus 4.5是 59.6%。

OpenAI 说:

「这是我们第一个达到人类专家水平的模型。」


02|ARC-AGI-2:从 17.6% 暴涨到 52.9%

如果说 GDPval 测的是「干活能力」,那 ARC-AGI-2 测的就是「聪明程度」。

这个测试专门衡量 AI 的抽象推理能力。

它被称为「AI 领域的图灵测试」,设计初衷就是让 AI 没法通过死记硬背作弊。

三周前,Gemini 3 Pro发布时拿到了 31.1% 的成绩,当时已经让整个 AI 圈震惊。

因为之前最好的GPT-5.1 Thinking也只有 17.6%。

而今天,GPT-5.2 Thinking直接拿到了 52.9% 的高分。

GPT-5.2 Pro更高,54.2%。

从 17.6% 到 52.9%,三倍提升。

这还只是一个小版本更新。

OpenAI,你认真的吗。


03|编程、数学、多模态,全面提升

SWE Bench Pro,SWE bench Verified 的进阶版。

更难,覆盖四种编程语言。

GPT-5.2 Thinking在 SWE Bench Pro 上准确率 55.6%。

在 SWE bench Verified 上是 80%。

数学也很猛。

在 AIME 2025(美国数学竞赛),GPT-5.2 Thinking直接满分,100%。

没有使用任何工具,纯推理,满分。

这是第一个在这个测试上拿满分的 AI 模型。

多模态方面,OpenAI 表示错误率大约减半。

CharXiv Reasoning(科学图表推理)准确率 88.7%。

ScreenSpot Pro(软件界面理解)是 86.3%。

说人话:理解图表、屏幕截图、技术文档,更靠谱了。

另外值得一提的是,GPT-5.2 Thinking相比前代,幻觉减少 30%。

OpenAI 今天总算实在了一回:

「和所有模型一样,GPT-5.2并不完美。对于任何重要的事情,请复核它的答案。」

这种坦诚,我喜欢。


04|三个版本,今天上新

GPT-5.2有三个版本。

Instant,快。

日常问答、写作、翻译,用它就够了。

OpenAI 说它保持了GPT-5.1那种温暖的对话风格,但解释更清晰,重点信息会提前呈现。

Thinking,深。

编程、文档分析、数学推理、规划决策,这些需要「思考」的任务交给它。

Pro,强。

最聪明,也最慢。

适合那些「答案质量比等待时间更重要」的场景。

ChatGPT 付费用户(Plus、Pro、Business、Enterprise)今天开始陆续推送。

免费和 ChatGPT Go 用户明天开放。

GPT-5.1会作为旧版模型(Legacy Model)保留三个月,之后下线。

API 和 Codex,今天就能用。

GPT-5.2API 定价是 1.75 美元/百万输入 tokens,14 美元/百万输出 tokens。

GPT-5.1贵了约 40%。

但 OpenAI 说,因为 token 效率提升,实际完成任务的总成本可能反而更低。

最后,附上一个模型对比,高清大图,拿走不谢。


05|代号:「大蒜」

今天发布GPT-5.2,并不突然。

我昨天的文章里已经写了。

ChatGPT 官方账号也有预热。

发了两张图,是 Sam Altman 在厨房里炒大蒜。

答案揭晓。

这个模型的内部代号叫「Garlic」,大蒜。

OpenAI 的应用 CEO Fidji Simo 说,GPT-5.2不是 Code Red 的直接产物,已经开发了好几个月。

「我们一周内做不出这样的模型。」

但她也承认,Code Red 确实帮助 OpenAI 把资源集中到了 ChatGPT 上。

Sam Altman 预计会在明年一月份解除 Code Red 红色警戒状态。

看来,这场厮杀,还会继续下去。

AI 的竞争,比我们想象的还要激烈。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 8:35:26

收藏!2025大模型人才洗牌真相:28%离职率下,小白/程序员该咋突围?

作为常年泡在CSDN的技术人,上周某头部猎头朋友甩来的《2025年第三季度泛AI人才报告》,直接让我把手里的咖啡放凉了——数据里藏着的大模型人才生存密码,不管是刚入行的小白还是深耕多年的程序员,都值得扒透。 报告里的一组反差数据…

作者头像 李华
网站建设 2026/3/30 8:20:51

AutoGPT错误日志分析技巧:快速定位问题根源

AutoGPT错误日志分析技巧:快速定位问题根源 在当前AI智能体迅猛发展的背景下,AutoGPT作为早期开源自主代理的代表,正被越来越多开发者用于自动化任务执行——从撰写技术报告到数据分析、项目规划。它不再只是回答“是什么”,而是…

作者头像 李华
网站建设 2026/4/2 19:11:06

CUDA安装与cuDNN配置联动设置要点

CUDA与cuDNN协同配置:构建高效PyTorch训练环境的核心实践 在深度学习模型日益复杂、参数量动辄数十亿的今天,训练效率直接决定了研发迭代的速度。一个常见的现象是:即便配备了A100或H100这样的顶级GPU硬件,实际训练中GPU利用率却常…

作者头像 李华
网站建设 2026/4/2 18:34:54

AutoGPT支持gRPC通信协议了吗?性能对比测试

AutoGPT 与 gRPC:通信协议的性能边界在哪里? 在构建自主 AI 智能体的今天,我们常常关注大模型的能力边界——它能不能写代码?会不会做规划?但很少有人追问:当这些智能体开始频繁调用外部工具、跨模块协作时…

作者头像 李华
网站建设 2026/4/1 14:25:16

2025避坑指南:零基础转型网络安全工程师的高效路径

【2025网络安全趋势】从小白到专家:网安工程师入行指南(建议收藏) 文章详述2025年网络安全工程师入行路径,涵盖三大核心职责方向、需求薪资前景及权威认证报考指南。数据显示网安岗位需求年增37%,薪资上限高&#xff…

作者头像 李华