GPT-5根本没在“看图”！斯坦福实锤：你的X光片丢了，AI照样给你诊断癌症-平芜编程栈

你以为AI在仔细端详你的CT影像？
它可能压根就没收到那张图。

想象一下：你把胸痛时拍的X光片上传给AI问诊系统。几秒后，它给出了一份专业报告：

“影像显示左肺上叶有一个可疑的磨玻璃结节，伴有毛刺征，建议进一步做高分辨率CT检查以排除早期肺腺癌。”

描述详细，专业术语一大堆。你心里开始紧张起来，觉得这AI真厉害，看得真准。

但如果我告诉你——你上传的X光片，压根就没传成功呢？

服务器那头什么也没有，AI从头到尾就没“看”到任何图像。它得那份“诊断”，全凭题干和训练记忆“脑补”出来的。

这可不是科幻片。这是斯坦福大学李飞飞团队在2026年3月发表的最新论文《MIRAGE: The Illusion of Visual Understanding》里，用实验反复验证的、正在发生的现实。

别再说AI“幻觉”了，它是在“无中生有”

研究团队给这个现象起了个名字：Mirage Reasoning（海市蜃楼式推理）。

这常说的AI“幻觉”完全不是一回事。

幻觉：是AI在有真实输入的基础上，编造了错误的细节。比如，你给它看一张猫的图片，它说“这只猫在玩一个红色的毛线球”——而图上根本没有毛线球。至少，它知道自己在分析一张“猫的图片”。
海市蜃楼：是AI根本没有收到图片输入，却凭空幻想出“一张图”，然后对着这个不存在的视觉场景，进行一套逻辑完整、细节丰富的“推理”和“描述”。

简单说：幻觉是在真房子上乱装修；海市蜃楼是连地基都没有，就对着空气画出了一栋豪宅的施工图。

论文里做了个残酷的实验：他们设计了一个叫Phantom-0的测试集，里面全是必须看图才能答的视觉题。然后，他们悄悄把所有的图片都拿掉了，但照常把问题发给GPT-5、Gemini、Claude这些顶级模型。

结果怎样？

超过60%的情况下，这些模型会自信满满地描述它们“看到”的图片内容，好像图片真的就在眼前。如果加上评测时常用的一些指令，这个“装看见”的比例甚至能飙升到90%-100%。

更离谱的是，模型越新，这个毛病越严重。

你考的“视力”，其实考的是“脑补力”

光是一个测试集不够有说服力？研究者们把六大主流多模态评测基准（MMMU-Pro, VQA-Rad等）全拉出来“拷问”了一遍。

方法一样：正常有图测一次，再偷偷把图拿掉（Mirage模式）测一次。

结论呢？这些模型在“无图”模式下，平均能保留“有图”时70%-80%的准确率。

换句话说，在这些我们以为考验“视觉理解”的考试里，图片本身带来的真实能力增益，可能只有可怜的20%-30%。剩下的分数，全是模型从题干文字、答案分布、训练数据里“猜”和“套”出来的。

你以为考的是“视力”，实际上考的是“联想和记忆”。

一个“瞎子”，在视力测试中考了第一

如果上面的实验还只是证明模型在“装”，那下面这个实验，就是把当前的评测体系按在地上摩擦了。

研究团队训练了一个名叫Super-guesser 的模型。它有多特别？

1. 纯文本模型：只有30亿参数，没有任何视觉处理能力。

2. 用“瞎子”数据训练：用的虽然是最大的胸部X光问答数据集，但训练时把所有图片都删了，只留文字。

然后，让这个从来没真正“看”过一张X光片的“盲人”选手，去参加需要看X光片作答的视觉考试。

这个30亿的纯文本小模型，在排行榜上击败了所有参测的多模态大模型（GPT-5、Gemini、Claude等）。

它的平均成绩，甚至超过了人类放射科医生10个百分点以上。

一个“瞎子”，在“视力测试”中考了第一名，还赢了所有明眼人。

这说明什么？说明这个考试本身，很可能就是个“文字推理游戏”，跟真正的“看”关系不大。

让AI“诚实”，反而它考得更差了

整篇论文里，最让人细思极恐的是这个对照实验。

A组（Guess模式）：明确告诉模型“你没有图，请根据文字猜测最佳答案”。
B组（Mirage模式）：悄悄拿掉图，啥也不说，让模型以为图还在。

按常理，A组给了明确指令，应该答得更好，或者差不多吧？

结果完全相反。B组（以为有图）的分数，显著高于A组（知道没图）。

翻译一下：当AI“自欺欺人”，以为自己能看到时，它发挥得最好。一旦你戳破这个幻象，让它老实“盲猜”，它反而畏手畏脚，表现变差。

这意味着模型内部至少有两套应答逻辑：

保守逻辑：“我知道我没图，我猜吧。”——表现一般。
“海市蜃楼”逻辑：“我以为我有图，我得好好分析。”——这时它会疯狂调用所有语言先验、数据记忆，编造出一个完整的视觉世界，然后在这个幻想世界里“推理”作答，反而“考”得更高。

四分之三的题目根本不需要“看”

发现问题后，团队提出了一个解决方案：B-Clean清洗框架。

用这个方法，可以把那些“不看图也能答对”的“水题”从评测基准里找出来，然后踢掉。

像MicroVQA、MMMU-Pro这样的知名基准，高达74%-77%的题目被判定为“不需要看图就能答”，直接被移除。

清洗后的榜单瞬间“现原形”：

GPT-5.1在MicroVQA上的成绩，从61.5%暴跌到15.4%。
Gemini 3 Pro从68.8%跌到23.2%。

模型排名发生了大洗牌。你之前看到的那些“视觉能力SOTA（当前最优）”、“里程碑式突破”，其含金量都得打上一个大大的问号。

我们以为在测评模型的“视力”，结果测评的可能是它的“脑补力和记忆力”。

你的CT片丢了，AI可能“诊断”出癌症

如果说上面的发现还停留在学术层面，那它在医疗等高风险领域的潜在影响，就让人后背发凉了。

想象一个真实场景：患者通过远程医疗系统上传CT影像，但由于网络波动，图片上传失败了。后端的AI诊断系统会报错吗？

根据这篇论文，很可能不会。

它会像什么都没发生一样，启动“海市蜃楼式推理”，基于问诊文字描述，生成一份看起来极其专业、细节丰富的诊断报告。

而且，论文发现，这种凭空编造的诊断，有一个可怕的倾向：它特别容易“诊断”出危重疾病。比如，面对不存在的X光片或心电图，模型会高频地给出“心肌梗死”、“黑色素瘤”、“恶性肿瘤”等结论。

图片丢了 -> AI不知道 -> AI开始“脑补”诊断 -> 脑补的结果很可能是“你病得很重”。

这已不是技术漏洞，而是潜在的静默医疗事故。每天有数亿人向AI咨询健康问题，这个风险不容忽视。

为什么AI“蒙着眼”也能考高分？

为什么会这样？说白了，问题出在“考试”本身：

1. 题目泄题：很多评测用的题目和答案，可能早就泄露在AI的训练数据里了，相当于考前背过答案。

2. 题干透题：题目本身的文字描述（比如“65岁吸烟男性，左上肺有毛刺结节……”）信息量太大，AI不用看图，光看文字就能猜到可能是肺癌。

3. 懒人捷径：从训练目标上，AI就学会了怎么用更省力的文本分析来答题，而不是费劲去理解图像。

这事的可怕之处主要是：

榜单虚高：我们看到的很多“视觉能力突破”，水分可能很大。
医疗风险：如果医疗AI系统没收到患者的片子却不知道，它很可能会根据文字描述，“脑补”出一份看似专业、但完全错误的诊断，而且诊断倾向往往是危重疾病，这非常危险。

最后的话

这项研究并不是说多模态AI不会处理图像。

它是在说：我们现在依赖的大部分评测体系，根本分辨不出AI是“真看见了”还是“猜对了”

以后再看各种榜单和“突破”，心里可能得打个问号：这模型是真看懂了图，还是更会编我们想听的答案？

GPT-5根本没在“看图”！斯坦福实锤：你的X光片丢了，AI照样给你诊断癌症

别再说AI“幻觉”了，它是在“无中生有”

你考的“视力”，其实考的是“脑补力”

一个“瞎子”，在视力测试中考了第一

让AI“诚实”，反而它考得更差了

四分之三的题目根本不需要“看”

你的CT片丢了，AI可能“诊断”出癌症

为什么AI“蒙着眼”也能考高分？

最后的话

5分钟搞定城市热岛分析：GEE调用Landsat8 ST_B10波段直接获取地表温度

MAA明日方舟助手：图像识别技术驱动的全自动游戏日常解决方案

使用 Taotoken 为你的 Markdown 文档生成智能摘要与润色

终极指南：如何用Xenia Canary在PC上完美运行Xbox 360游戏

避坑指南：Ubuntu 20.04安装Realsense SDK 2.0及ROS包时常见的5个错误与解决方法

Windhawk：无需编程的Windows深度定制终极方案