news 2026/3/24 3:09:56

刚刚,GPT-5.2Pro独立证明45年未解的埃尔德什猜想!菲尔茨奖得主陶哲轩:其中存在陷阱,但AI没犯错

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
刚刚,GPT-5.2Pro独立证明45年未解的埃尔德什猜想!菲尔茨奖得主陶哲轩:其中存在陷阱,但AI没犯错

数学家保罗·埃尔德什一生中提出了大量有趣的数学问题,有些是他自己完成的,有些是与合作者共同完成的。这些问题难度范围广泛,吸引了大量关注。如今,随着AI在数学推理能力上的提升,人们开始使用AI来解决未解决的埃尔德什问题。

刚刚,GPT-5.2Pro又破解了一道埃尔德什猜想。

论证过程由菲尔茨奖得主陶哲轩证明没有问题,并且给予了高度评价,称其为“AI 解决开放性数学问题中“最明确的案例之一”

这道题目是数论领域的“埃尔德什难题”(Erdős problem)第281号,由匈牙利数学家保罗·埃尔德什(Paul Erdős)与罗纳德·格雷厄姆(Ronald Graham)于1980年共同提出,涉及同余覆盖系统与自然密度的深层关系。

数学家保罗·埃尔德什一生中提出了大量有趣的数学问题,有些是他自己完成的,有些是与合作者共同完成的。这些问题难度范围广泛,吸引了大量关注。如今,随着AI在数学推理能力上的提升,人们开始使用AI来解决未解决的埃尔德什问题。

这次证明由数学家Neel Somani 推动,并在X上高调发帖,有不少网友纷纷恭喜GPT-5.2又解决了人类一大难题。

在其X帖子下方,有网友补充了相关信息:GPT-5.2Pro对这个问题提出了新的证明方法,但忽略了此前已有的相关证明。不过,据陶哲轩验证,GPT-5.2Pro的证明思路与之前的方法相当不同。

证明只用到GPT-5.2 Pro,多个模型交叉验证

目前GPT-5.2Pro对该问题的证明结果已被埃尔德什问题网站收录。在帖子下方的评论区,不少网友也在讨论AI的证明过程有何巧妙以及不足之处。

GPT-5.2Pro的证明思路是将算术密度问题转化为紧群上的测度与平移问题,利用遍历性排除正测度的“全避让”配置,并借助紧致参数空间上的单调一致收敛原理(Dini 定理),实现了从逐配置的有限逼近到统一有限截断的跃迁。

Gemini 3对这份数学证明的评价是:

这是一个数学上合理且优雅的证明。它正确应用遍历理论和拓扑学的概念来解决数论问题。我没有发现任何逻辑错误。

陶哲轩指出,GPT-5.2Pro的证明策略是“弗斯滕伯格对应原理”的变体,它是数学家在遍历理论与组合学交界处的标准工具,尤其依赖于背景中潜藏的“弱紧致性”。

但GPT-5.2Pro的使用方法略有不同,比通常论证更依赖伯克霍夫遍历定理。

网友natso26指出,他认为GPT-5.2Pro跟踪极限交换等细节时会出错,但在这道题中,将问题转化为遍历理论的语言,似乎能让大模型推理变得更容易。

陶哲轩肯定了他的看法。他指出,遍历理论中存在陷阱,即便是高度专业的人类遍历理论专家也有可能会犯错,但AI在这方面却没有出错——这也是令他印象深刻的地方。

他还将整个论证过程转换为无限组合论,亲自动手验证了一遍,最终得出结论:结果成立。

网友Quanyu Tang用GPT-5.2 Pro反复检查论证细节,结论是唯一需要补充严格性的地方在第二步,可以用法图引理(Fatou lemma)进行简短论证,以免完全使用遍历理论,让证明更加严峻。

他还尝试了另外两个模型:ChatGPT-5.2 Thinking无法搜索到解决该问题的相关参考文献;ChatGPT-5.1 Pro 也无法独立解决该问题。

不过陶哲轩指出这里用法图引理替代伯克霍夫遍历定理的说法是错误的,不等式方向相反:“我刚教完研究生测度论,这类错误见得太多了。”

随后他又确认其实是对补集应用法图引理,方向没问题,论证成立。

答案其实早就近在眼前

经过评论区诸多网友的讨论和挖掘,大家发现了一个意外的事实:这道题其实有更简单的解法,解题所需的两个关键定理——达文波特-埃尔多斯定理和罗杰斯定理,其实早在1936和1966年就已经提出了。

发现这一点的人是网友KoishiChan。达文波特-埃尔多斯定理是哈罗德·达文波特和保罗·埃尔德什于1936年发明的密度收敛定理,它指出:对于整数倍的集合,有几个不同的密度概念是等价的。

而罗杰斯定理则首次出现在1966年的《H. Halberstam 和 K. Roth,序列》的第五章。陶哲轩自己也在这篇论文中找到了对罗杰斯定理的引用,这一引用来自于法国数学家特南鲍姆(Gérald Tenenbaum)。

这样一来,事情就变得很有意思了:埃尔德什自己就是其中一条关键定理的发明者,那么为什么他当时没有意识到问题的解决思路呢?

陶哲轩立刻向特南鲍姆发邮件询问了此事。特南鲍姆在邮件中确认,基于这两条经典定理,对281号问题的解决方案是显而易见的。但至于为什么当时没有被解决,他推测可能是当时“问题的表述在某种程度上被改变了”,但没有人来判断问题的另一个预期版本,所以只能按原样处理。

因此,现在埃尔德什281号问题有两个解法:一个是GPT-5.2Pro提出的遍历论思路,另一个就是网友发现的基于达文波特-埃尔多斯定理和罗杰斯定理进行求解的方法。

网友natso26对这两种证明方法进行了比较,确认他们是不同的证明思路,只是存在一些概念重叠。

陶哲轩则感慨,罗杰斯定理没有得到应有的传播,连他自己也是直到网友发掘出来才知道这件事。

“它仅出现在 Halberstam-Roth 的书中,没有单独的出版参考文献,文献中也仅被引用过几次。即使是埃尔多斯在 1980 年与格雷厄姆准备长篇未解论文时,也未必想起罗杰斯定理。

也许整场讨论的一个贡献让研究筛选和覆盖全余关系的人们增加对罗杰斯定理的认识。

AI已经解决了多少埃尔德什问题?

一直以来,数学家埃尔德什的“问题列表”,就像一座知识的珠穆朗玛峰,考验着人类的极限。这些悬而未决的难题,悬赏金大多从几十美元到上万美元不等。

每当AI解决一道埃尔德什问题,都会被视为其数学能力的进一步突破,引发轩然大波。

AI已经解决了多少埃尔德什数学猜想?根据陶哲轩对于“AI对埃尔德什猜想的贡献”的github统计,包含最新解决的281号问题,AI已经在7道埃尔德什问题上完全自主生成解决方案。此外,人类与AI协作生成解决方案的问题有7道,AI发现新证据或为部分结果提出新证明的问题有19道。

当然,目前AI的主要贡献还在于文献检索。据陶哲轩统计,目前尝试使用AI来驱动文献综述的埃尔德什问题有80道,其中有的问题AI能找到完整解,有的能找到部分结果,也有很多问题目前还未能发现显著结果。

陶哲轩在Github主页上写道:埃尔德什问题的难度差异很大(相差数个数量级),一端是非常有趣但极其困难的问题,另一端则是“长尾”未被充分探索的问题,其中许多是“低垂的果实”,非常适合被当前 AI 工具挑战。

他冷静地指出,尽管AI解决埃尔德什问题的消息或报道时常传出,但这并不意味着AI的数学推理能力有人们想象的那么乐观。

在评估 AI 工具的真实成功率时,最大统计偏差之一是强烈的报告偏见,负面结果几乎不会被披露。

如果个人或人工智能公司研究团队将其 AI 工具应用于未解决的问题,但没有实质性进展,用户几乎没有动力去举报该负面声明;此外,即使这些结果被报道,它们在社交媒体上“病毒式传播”的可能性也低于积极结果。

因此,

人们在这些媒体上听到的实际结果往往高度偏向积极的结果。”

他推荐了Paata Ivanisvili和Mehmet Mars Seven发起的一个开源项目,这一项目系统记录了前沿大语言模型应用于开放性问题(如埃尔德什问题)上的正面和负面结果。

陶哲轩指出,这些工具在埃尔多斯问题上的真正成功率实际上只有一两个百分点,但面对600多个未解的问题,依然能带来一批数量可观且不平凡的AI贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 22:49:03

AI 原生应用开源开发者沙龙·广州站精彩回顾 PPT 下载

作者:盈楹 近日,AI 原生应用开源开发者沙龙广州站圆满落幕。本场活动吸引了 140 名技术从业者深度参与,聚焦 AI 原生应用架构领域的开源技术与落地实践,围绕 AgentScope Java 1.0 发布、HiMarket、AgentRun、LoongSuite、RocketM…

作者头像 李华
网站建设 2026/3/14 15:19:40

(模型量化学习)基础准备

1.FLOPS(大写)和TOPSFLOPS指的是一秒钟可以处理的浮动小数点运算次数,而TOPS是一秒钟可以处理了的整形运算次数的能力,衡量计算机硬件性能,计算能力的一个单位。注意FLOPS与FLOPs不同,FLOPs是衡量模型大小的一个指标。…

作者头像 李华
网站建设 2026/3/17 6:06:08

巴菲特的市场周期理解

巴菲特的市场周期理解 关键词:巴菲特、市场周期、价值投资、市场波动、长期投资、风险评估、投资策略 摘要:本文深入探讨了巴菲特对市场周期的理解。从背景介绍入手,阐述研究目的、预期读者、文档结构及相关术语。接着剖析核心概念,揭示市场周期与巴菲特投资理念的联系,并…

作者头像 李华
网站建设 2026/3/11 15:22:52

astmd4169振动测试

对于astmd4169标准中的振动测试,最关键的一步是根据你的实际运输方式来确定对应的测试谱和测试时间。标准也提供了多种预设的运输场景方案。astmd4169部分运输振动谱卡车运输谱常见测试时间1小时空运谱常见测试时间2小时铁路运输谱测试时间标准根据流通周期DC确定松…

作者头像 李华
网站建设 2026/3/16 9:20:27

AI与PLUS-InVEST模型的土地利用多情景优化及生态系统服务智能模拟研究

工业革命以来,全球城市化与工业化进程加速,土地资源的高强度开发引发人地关系失衡,水土流失、生物多样性锐减、气候调节功能退化等生态危机频发。传统土地利用规划依赖经验驱动或单一模型模拟,难以精准捕捉人类活动与生态系统的复…

作者头像 李华
网站建设 2026/3/21 20:17:06

PHP 异步与多线程 从 TrueAsync 展望未来

RFC TrueAsync 1.7 讨论中有个问题:这个提议会如何与 PHP 核心未来的变化互动?要设计好语言的长期演进,至少得对 PHP 的发展方向有基本判断。本文试图回答这个问题。 TrueAsync 项目不仅是 PHP 核心的 async 改动,还包括回答以下…

作者头像 李华