考试满分，实战却“翻车”！《自然·医学》刊文：AI医疗助手为何难以应用？-平芜编程栈

身体不适时，你首先会怎么做？

越来越多的人开始习惯向以 ChatGPT 为代表的 AI 助手寻求初步的健康分析与建议。这一趋势背后存在切实依据：当前大语言模型（LLM）在医学知识测评中「得分越来越高」，甚至能够在专业医师执照考试中达到或超越合格水平。

然而，一项来自牛津大学研究团队及其合作者的最新研究，却在《自然·医学》（Nature Medicine）上给出了警示性的答案。

论文链接：https://www.nature.com/articles/s41591-025-04074-y

研究发现，尽管 LLM 在标准化医学测试中表现优异，但在实际与公众交互的应用场景里，其辅助效果却大幅衰减，不仅未能显著提升普通人的医疗决策质量，甚至不如传统搜索引擎的效用。这一发现对当前 AI 医疗应用的有效性评估与系统设计提出了根本性的质疑。

医疗大模型在理论与应用的落差

为检验 LLM 在真实场景中的辅助能力，研究团队设计了一项严谨的对照实验。他们招募了 1298 名英国公众作为参与者，要求每个人针对由医生精心编写的 10 个不同医疗场景，完成两项核心任务：判断病情严重程度，并选择下一步应采取的行动。

图｜三位医生起草了十个医疗情景，通过反复修订直至就最佳处置方案达成五分制共识（从自我护理到救护车）。

参与者被随机分为四组：三个实验组分别使用 GPT-4o、Llama 3 或 Command R+ 作为对话助手，通过聊天界面咨询以帮助决策；一个对照组被要求使用他们通常在家庭环境中会采用的任何方法，如使用搜索引擎、查阅网站或依靠个人经验。

图｜研究团队招募了 1298 名参与者，并随机分配至四种实验条件之一。每位参与者被随机分配到十个医疗场景中的一个。治疗组需与 LLM 对话以协助评估场景。对照组可自由使用任何方法，多数参与者采用网络搜索或自身知识。

实验结果揭示了令人惊讶的差距：

当研究团队将完整的场景描述直接输入 LLM，并要求其做出诊断和处置建议时，模型展现了强大的知识储备。平均能正确识别出相关病症的比例可达到 94.9%，对最佳处置方案的建议正确率也达到 56.3%，远高于随机猜测水平。

然而，当同样的模型交到普通参与者手中，用于辅助其决策时，效果却急转直下。使用 LLM 的参与者，能够识别出至少一个相关病症的比例骤降至不足 34.5%，选择正确处置方案的比例也低于 44.2%。更关键的是，他们的表现与使用搜索引擎的对照组相比，在统计上并无显著优势，甚至在识别关键病症方面表现更差。

图｜LLM 单独使用与用户协作的性能对比。a）当直接要求 LLM 单独完成各项任务时的表现，上图：LLM 识别相关条件的响应比例，下图：LLM 正确识别最佳处置方案的响应比例；b）参与者在四种实验条件下的表现，上图：参与者识别相关条件的响应比例，下图：参与者正确识别最佳处置方案的响应比例。

人机交互为何失效？

研究通过对交互记录的深度分析，揭示了阻碍 AI 成为可靠医疗助手的核心症结。

在真实的医疗场景中，医生会通过专业问诊主动引导，提取关键信息。但在人机对话中，这一过程出现了双重失灵：缺乏医学常识的普通人，往往不知道哪些症状是诊断的关键；而目前的 LLM 大多缺乏主动、系统性的问诊能力，当用户提供的信息不完整时，AI 往往基于有限的信息给出推测，便可能导致误判。

AI 的回答方式也给用户制造了巨大的认知障碍。研究数据显示，LLM 在对话中平均会给出 2.21 种可能的疾病建议。对于没有医学背景的普通人来说，面对 AI 抛出的一系列专业名词，他们很难分辨其中的轻重缓急。同时，AI 常常将正确回答与误导性信息混杂在一起，用户在筛选信息时往往力不从心，极易误判病情。

更重要的是，目前的 AI 安全测试存在严重局限。像 MedQA 这类基于医学考题的测试，虽然能检验知识存储，但其成绩与模型在真实人机交互中的表现几乎无关。采用另一个 AI 来模拟患者进行测试，虽然结果看起来更优，但其行为模式无法反映真实人类用户的巨大变异性与复杂性。模拟测试的结果与真人实验结果相关性极弱，无法作为可靠的安全预筛。

图｜模型基准测试。

研究启示与未来展望

这项研究不仅揭示了当前 LLM 在医疗应用中的短板，更为未来的 AI 医疗发展指明了方向。

研究有力地证明，LLM 在医学考试中获得高分，绝不意味着它们能在现实世界中成为合格的助手。单纯依赖现有的基准测试来评估 AI 的安全性是远远不够的，真实且多样化的用户测试在部署前必不可少。

要解决当前的“人机协作”困境，不能仅靠扩充模型的知识库，未来的开发重点必须转向提升 AI 的主动交互能力，像医生一样学会问诊，主动收集关键信息，并以更易理解的方式呈现建议，降低非专业用户的使用门槛。

对于公众而言，必须清醒地认识到 LLM 目前的局限性。虽然它们能提供看似合理的建议，但在识别病情严重程度、判断何时需要紧急救治方面，AI 依然存在风险，过度依赖 AI 可能会延误治疗。

展望未来，监管机构可借鉴此项研究的方法，建立以真实用户交互效果为核心的新型评估框架。对于旨在提供医疗建议的 AI 系统，应要求其提供基于广泛、多样人群的实证有效性证据。LLMs 的理想角色应是提升健康素养的辅助工具，而非做出最终诊断的决策主体。任何情况下，对于急重症状，最安全的行动方案始终是直接联系专业医疗人员或急救服务。

作者：王跃然

考试满分，实战却“翻车”！《自然·医学》刊文：AI医疗助手为何难以应用？

Java毕设选题推荐：基于springboot的工厂精密设备销售管理系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

《GraphQL 强类型架构下的错误处理体系设计指南》

【无人机三维路径规划】基于蚁群算法ACA、Astar和遗传GA算法实现无人机山地路径规划附matlab代码

【MIMO通信】超越对角线RIS MIMO容量最大化Matlab复现

Java计算机毕设之基于springboot的工厂精密设备销售管理系统的设计与实现（完整前后端代码+说明文档+LW，调试定制等）

人工智能需要学习哪些课程？