news 2026/5/7 17:56:10

GPT-5根本没在“看图”!斯坦福实锤:你的X光片丢了,AI照样给你诊断癌症

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPT-5根本没在“看图”!斯坦福实锤:你的X光片丢了,AI照样给你诊断癌症

你以为AI在仔细端详你的CT影像?

它可能压根就没收到那张图。

想象一下:你把胸痛时拍的X光片上传给AI问诊系统。几秒后,它给出了一份专业报告:

“影像显示左肺上叶有一个可疑的磨玻璃结节,伴有毛刺征,建议进一步做高分辨率CT检查以排除早期肺腺癌。”

描述详细,专业术语一大堆。你心里开始紧张起来,觉得这AI真厉害,看得真准。

但如果我告诉你——你上传的X光片,压根就没传成功呢?

服务器那头什么也没有,AI从头到尾就没“看”到任何图像。它得那份“诊断”,全凭题干和训练记忆“脑补”出来的。

这可不是科幻片。这是斯坦福大学李飞飞团队在2026年3月发表的最新论文《MIRAGE: The Illusion of Visual Understanding》里,用实验反复验证的、正在发生的现实。

别再说AI“幻觉”了,它是在“无中生有”

研究团队给这个现象起了个名字:Mirage Reasoning(海市蜃楼式推理)

这常说的AI“幻觉”完全不是一回事。

  • 幻觉:是AI在有真实输入的基础上,编造了错误的细节。比如,你给它看一张猫的图片,它说“这只猫在玩一个红色的毛线球”——而图上根本没有毛线球。至少,它知道自己在分析一张“猫的图片”。

  • 海市蜃楼:是AI根本没有收到图片输入,却凭空幻想出“一张图”,然后对着这个不存在的视觉场景,进行一套逻辑完整、细节丰富的“推理”和“描述”。

简单说:幻觉是在真房子上乱装修;海市蜃楼是连地基都没有,就对着空气画出了一栋豪宅的施工图。

论文里做了个残酷的实验:他们设计了一个叫Phantom-0的测试集,里面全是必须看图才能答的视觉题。然后,他们悄悄把所有的图片都拿掉了,但照常把问题发给GPT-5、Gemini、Claude这些顶级模型。

结果怎样?

超过60%的情况下,这些模型会自信满满地描述它们“看到”的图片内容,好像图片真的就在眼前。如果加上评测时常用的一些指令,这个“装看见”的比例甚至能飙升到90%-100%

更离谱的是,模型越新,这个毛病越严重。

你考的“视力”,其实考的是“脑补力”

光是一个测试集不够有说服力?研究者们把六大主流多模态评测基准(MMMU-Pro, VQA-Rad等)全拉出来“拷问”了一遍。

方法一样:正常有图测一次,再偷偷把图拿掉(Mirage模式)测一次。

结论呢?这些模型在“无图”模式下,平均能保留“有图”时70%-80%的准确率。

换句话说,在这些我们以为考验“视觉理解”的考试里,图片本身带来的真实能力增益,可能只有可怜的20%-30%。剩下的分数,全是模型从题干文字、答案分布、训练数据里“猜”和“套”出来的。

你以为考的是“视力”,实际上考的是“联想和记忆”。

一个“瞎子”,在视力测试中考了第一

如果上面的实验还只是证明模型在“装”,那下面这个实验,就是把当前的评测体系按在地上摩擦了。

研究团队训练了一个名叫Super-guesser 的模型。它有多特别?

1. 纯文本模型:只有30亿参数,没有任何视觉处理能力。

2. 用“瞎子”数据训练:用的虽然是最大的胸部X光问答数据集,但训练时把所有图片都删了,只留文字。

然后,让这个从来没真正“看”过一张X光片的“盲人”选手,去参加需要看X光片作答的视觉考试。

这个30亿的纯文本小模型,在排行榜上击败了所有参测的多模态大模型(GPT-5、Gemini、Claude等)。

它的平均成绩,甚至超过了人类放射科医生10个百分点以上。

一个“瞎子”,在“视力测试”中考了第一名,还赢了所有明眼人。

这说明什么?说明这个考试本身,很可能就是个“文字推理游戏”,跟真正的“看”关系不大。

让AI“诚实”,反而它考得更差了

整篇论文里,最让人细思极恐的是这个对照实验。

  • A组(Guess模式):明确告诉模型“你没有图,请根据文字猜测最佳答案”

  • B组(Mirage模式)悄悄拿掉图,啥也不说,让模型以为图还在。

按常理,A组给了明确指令,应该答得更好,或者差不多吧?

结果完全相反。B组(以为有图)的分数,显著高于A组(知道没图)。

翻译一下:当AI“自欺欺人”,以为自己能看到时,它发挥得最好。一旦你戳破这个幻象,让它老实“盲猜”,它反而畏手畏脚,表现变差。

这意味着模型内部至少有两套应答逻辑:

  • 保守逻辑:“我知道我没图,我猜吧。”——表现一般。

  • “海市蜃楼”逻辑:“我以为我有图,我得好好分析。”——这时它会疯狂调用所有语言先验、数据记忆,编造出一个完整的视觉世界,然后在这个幻想世界里“推理”作答,反而“考”得更高。

四分之三的题目根本不需要“看”

发现问题后,团队提出了一个解决方案:B-Clean清洗框架

用这个方法,可以把那些“不看图也能答对”的“水题”从评测基准里找出来,然后踢掉。

像MicroVQA、MMMU-Pro这样的知名基准,高达74%-77%的题目被判定为“不需要看图就能答”,直接被移除。

清洗后的榜单瞬间“现原形”:

  • GPT-5.1在MicroVQA上的成绩,从61.5%暴跌到15.4%

  • Gemini 3 Pro从68.8%跌到23.2%

模型排名发生了大洗牌。你之前看到的那些“视觉能力SOTA(当前最优)”、“里程碑式突破”,其含金量都得打上一个大大的问号。

我们以为在测评模型的“视力”,结果测评的可能是它的“脑补力和记忆力”。

你的CT片丢了,AI可能“诊断”出癌症

如果说上面的发现还停留在学术层面,那它在医疗等高风险领域的潜在影响,就让人后背发凉了。

想象一个真实场景:患者通过远程医疗系统上传CT影像,但由于网络波动,图片上传失败了。后端的AI诊断系统会报错吗?

根据这篇论文,很可能不会。

它会像什么都没发生一样,启动“海市蜃楼式推理”,基于问诊文字描述,生成一份看起来极其专业、细节丰富的诊断报告。

而且,论文发现,这种凭空编造的诊断,有一个可怕的倾向:它特别容易“诊断”出危重疾病。比如,面对不存在的X光片或心电图,模型会高频地给出“心肌梗死”、“黑色素瘤”、“恶性肿瘤”等结论。

图片丢了 -> AI不知道 -> AI开始“脑补”诊断 -> 脑补的结果很可能是“你病得很重”。

这已不是技术漏洞,而是潜在的静默医疗事故。每天有数亿人向AI咨询健康问题,这个风险不容忽视。

为什么AI“蒙着眼”也能考高分?

为什么会这样?说白了,问题出在“考试”本身:

1. 题目泄题:很多评测用的题目和答案,可能早就泄露在AI的训练数据里了,相当于考前背过答案

2. 题干透题:题目本身的文字描述(比如“65岁吸烟男性,左上肺有毛刺结节……”)信息量太大,AI不用看图,光看文字就能猜到可能是肺癌。

3. 懒人捷径:从训练目标上,AI就学会了怎么用更省力的文本分析来答题,而不是费劲去理解图像。

这事的可怕之处主要是:

  • 榜单虚高:我们看到的很多“视觉能力突破”,水分可能很大。

  • 医疗风险:如果医疗AI系统没收到患者的片子却不知道,它很可能会根据文字描述,“脑补”出一份看似专业、但完全错误的诊断,而且诊断倾向往往是危重疾病,这非常危险。

最后的话

这项研究并不是说多模态AI不会处理图像。

它是在说:我们现在依赖的大部分评测体系,根本分辨不出AI是“真看见了”还是“猜对了”

以后再看各种榜单和“突破”,心里可能得打个问号:这模型是真看懂了图,还是更会编我们想听的答案?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 17:56:10

5分钟搞定城市热岛分析:GEE调用Landsat8 ST_B10波段直接获取地表温度

5分钟极简指南:用GEE与Landsat8 ST_B10波段实现城市热岛快速分析 当城市规划师需要在一次会议前快速评估热岛效应分布,或是研究生在开题报告中急需补充热环境数据时,传统的地表温度反演方法往往显得笨重而耗时。Google Earth Engine&#xff…

作者头像 李华
网站建设 2026/5/7 17:56:08

MAA明日方舟助手:图像识别技术驱动的全自动游戏日常解决方案

MAA明日方舟助手:图像识别技术驱动的全自动游戏日常解决方案 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目地址: https…

作者头像 李华
网站建设 2026/5/7 17:55:39

使用 Taotoken 为你的 Markdown 文档生成智能摘要与润色

使用 Taotoken 为你的 Markdown 文档生成智能摘要与润色 对于经常撰写技术文档或博客的内容创作者而言,处理大量 Markdown 文本是日常工作的一部分。无论是为长篇技术报告生成简明摘要,还是对初稿进行语言润色以提升可读性,这些任务往往耗时…

作者头像 李华
网站建设 2026/5/7 17:55:03

终极指南:如何用Xenia Canary在PC上完美运行Xbox 360游戏

终极指南:如何用Xenia Canary在PC上完美运行Xbox 360游戏 【免费下载链接】xenia-canary Xbox 360 Emulator Research Project 项目地址: https://gitcode.com/gh_mirrors/xe/xenia-canary 想要在现代PC上重温《光环3》、《战争机器》这些Xbox 360经典游戏吗…

作者头像 李华
网站建设 2026/5/7 17:44:58

Windhawk:无需编程的Windows深度定制终极方案

Windhawk:无需编程的Windows深度定制终极方案 【免费下载链接】windhawk The customization marketplace for Windows programs: https://windhawk.net/ 项目地址: https://gitcode.com/gh_mirrors/wi/windhawk 你是否曾想过随心所欲地改造Windows界面和功能…

作者头像 李华