GPT-5.2遭全网群嘲，原因竟然是不够人性化！-平芜编程栈

日前，OpenAI 十周年的日子里，他们如约推出了新的旗舰模型 GPT-5.2。

官方宣传词是「迄今为止在专业知识工作上最强大的模型」，各项基准测试成绩也确实看起来不错。

但就在发布后的几个小时内，整个网络舆论急速反转。

社交媒体上涌现出大量质疑声音：从专业基准测试的「拉胯」成绩，到日常推理能力的离谱错误，再到创意工作上的审美缺陷……

一个曾经被全网期待的升级，瞬间变成了网红吐槽对象。

第一个坑：基准测试对不上

OpenAI官方数据吹得很凶，AIME数学竞赛100%满分、70%工作场景超越人类专家。

但SimpleBench（一个测常识推理的2024年基准），出来，GPT-5.2得分竟然低于Claude Sonnet 3.7，那是一年前的模型。

SimpleBench考的是像人一样思考，不是死记硬背。

200多道多选题，高中生能答83%，但GPT-5.2栽跟头了。

最过分的是那个著名的"garlic有几个r"问题，GPT-5.2一本正经回答0个，被网友直接嘲讽"GPT-5.2 is AGI"。

更扎心的是，前AWS和谷歌总经理Bindu Reddy指出，GPT-5.2在LiveBench上的得分也低于Opus 4.5和Gemini 3.0。

号称升级，结果在多个真实基准上都表现平庸。

第二个坑：安全护栏把人当幼儿园小孩

OpenAI强化了"安全完成"机制，结果用户缺不干了！

有人想转录Ray Kurzweil的哲学论文（纯学术内容），GPT-4o到GPT-5.2全部拒绝，借口是"内容不合适"或"版权问题"。

Reddit用户一致认为GPT-5.2太平淡、过度审查，

就像"把成年人当幼儿园小孩对待"，有人甚至说"不像是升级，反而像是倒退"。

那GPT-5.2真的有那么拉垮吗？网上有差的一面，但是也有好的一面。

不少人觉得GPT-5.2更加智能了。

当然，这里也不一一展示了！

其实深究OpenAI到底怎么了？原因也很简单，

其实问题出在OpenAI的战略转向

GPT-5.2不是烂，而是为数学和科学而生。只是在错误的时间，出现在错误的使用场景上。

它被当做自然语言模型来用，结果就显得冷漠、无人性。

我注意到一个趋势。

OpenAI让Jakub Pachocki做首席科学家，这个信号很明确，他们已经打算放弃自然语言了。

看o1、o3、GPT-5、GPT-5.2的走势，每一代模型都在变得更"不自然"。

o3那会儿大家沉迷于它的图像缩放和推理能力，忽视了一件事：它的语言表达越来越不自然，出现了反自然语言倾向。到了GPT-5.2，这个趋势更明显。

最后！

基准测试碾压竞品，不代表真实可用性强。

OpenAI为了刷推理能力而优化模型，反而丧失了在日常对话中的理解力和温度。

一个更聪明但更冷漠、更容易伤害人的系统，这不是升级，这是战略偏移。

可能这就是为什么Claude用户反馈满意度更高，不是智能分更高。

如果大家更加注重日常的聊天。那还是期待新版的GPT-4o早点出来吧！

相关阅读：

不是礼品卡，不是虚拟卡，2025最新ChatGPT Plus订阅教程，小白都学得会！

这个产品，居然可以同时使用Claude code和Codex

从爬取到分析：使用 Pandas 处理头条问答数据

在当下的内容生态中，头条问答汇聚了海量用户生成的问答数据，这些数据涵盖了用户的兴趣偏好、问题诉求、内容互动等多维度信息，是洞察用户行为、挖掘内容价值的重要资源。而 Pandas 作为 Python 生态中核心的数据处理库，凭借其高效…

李华

Ubuntu下使用conda安装TensorFlow-GPU实战指南

Ubuntu下使用conda安装TensorFlow-GPU实战指南在实验室部署深度学习项目时，最让人抓狂的不是模型调不通，而是“代码没问题，但GPU就是用不上”。明明装了 tensorflow-gpu，运行时却只看到CPU默默工作；nvidia-smi 显示驱…

李华

LobeChat能否实现段落缩写功能？长文本精炼助手

LobeChat能否实现段落缩写功能？长文本精炼助手在信息爆炸的时代，我们每天面对的文本量呈指数级增长——从学术论文到行业报告，从会议纪要到社交媒体长文。如何快速提取核心内容，成为高效工作的关键。这时，一个能“读…

李华

智慧水务的“核心触角”：十大智能水表厂家实力比拼，谁是行业标杆？

在科技飞速发展的当下，智能水务已成为水务行业的重要发展方向。智能水务借助物联网、大数据、云计算等先进技术，让水务管理变得更加高效、精准、智能 ，不仅能有效提高水资源利用效率，还能降低水资源的浪费，对于保障国家…

李华

GPT-5.2遭全网群嘲，原因竟然是不够人性化！

keyence颜色传感器LR-W70使用(最多可区分16种颜色）

从爬取到分析：使用 Pandas 处理头条问答数据

Ubuntu下使用conda安装TensorFlow-GPU实战指南

LobeChat能否实现段落缩写功能？长文本精炼助手

弱网测试利器 - Charles工具实战分享

智慧水务的“核心触角”：十大智能水表厂家实力比拼，谁是行业标杆？