1. 项目概述:当大语言模型遇见科研资助分析
如果你在生物医学研究领域工作,或者对科研政策、资金分配感兴趣,那么“钱花在哪里了”这个问题,可能比“研究发现了什么”更让你挠头。美国国立卫生研究院(NIH)作为全球最大的生物医学研究公共资助机构,每年投入数百亿美元,其资金流向直接塑造着未来几十年的医学图景。随着人工智能和机器学习技术的爆发,一个核心问题浮出水面:这些变革性的工具,究竟在多大程度上渗透到了NIH资助的科研项目中?它们是被均匀地用于解决各类健康问题,还是像滚雪球一样,只在少数几个“明星”领域越滚越大?
传统的分析方法,比如依赖关键词搜索或人工阅读摘要,面对每年数万份项目申请书,无异于大海捞针,既耗时费力,又难以避免主观偏差和视野局限。这正是大语言模型大显身手的地方。我们这项工作的核心,就是构建一个“人机协同”的智能分析流水线,让LLM充当不知疲倦的“初级研究员”,快速阅读并理解58,746份NIH项目摘要,然后由我们这些“资深研究员”来设定规则、校准结果、解读模式。这不仅仅是技术上的炫技,更是一种研究范式的转变——从抽样推测走向全量洞察。
最终,我们得到了一幅前所未有的、关于NIH人工智能研究资助的精细地图。地图显示,AI确实已经成为了一个不可忽视的力量,占据了近16%的资助份额,并且平均能多拿到13.4%的经费。但光鲜的总体数据下,是触目惊心的不均衡:超过一半的AI资金流向了癌症、衰老和心理健康这三个领域,而与NIH核心使命息息相关的健康公平研究,在AI盛宴中只分到了不到6%的残羹冷炙。更令人深思的是,绝大多数(79%)的AI项目仍在实验室里打转,真正走向临床、惠及患者的“临门一脚”项目少得可怜。这幅图景清晰地告诉我们,技术扩散的“马太效应”在科研资助中同样存在,而将前沿工具转化为实际健康收益的“最后一公里”,依然道阻且长。
2. 方法论拆解:如何让大语言模型成为靠谱的“科研审计员”
要让大语言模型从“聊天高手”变成严谨的“科研审计员”,不能靠简单的指令,必须设计一套结构清晰、环环相扣的工程化流程。我们的方法可以概括为“两步筛选,人机协同”,其核心目标是实现大规模、可重复、且洞察深刻的研究组合分析。
2.1 数据基石:从海量非结构化文本到可分析单元
一切分析始于数据。我们使用的数据全部来自NIH RePORTER这个公开数据库,选取了2025财年完整的项目记录,经过去重和质量清洗后,最终锁定了58,746个项目作为分析对象。这里的关键在于,我们不仅收集数据,更定义了分析的“原子单位”。每个项目,我们提取了标题、摘要、项目关键词、总资助金额、主管研究院/中心、资助机制、机构名称和类型等字段。其中,项目摘要是我们分析的“主战场”,因为它以相对标准化的格式,包含了研究目标、方法和应用背景的核心信息。而其他结构化字段(如金额、机构)则作为后续交叉分析的维度,帮助我们回答“谁在做什么,花了多少钱”这类政策性问题。
注意:数据清洗是容易被忽视但至关重要的一步。例如,我们需要处理文本编码问题(确保UTF-8)、统一空格和换行符、谨慎处理缺失值(标记为“未知”而非直接删除,以保持分母一致)。一个微小的数据错误,在放大数万倍后可能导致结论的严重偏差。
2.2 核心流水线:两阶段LLM驱动的分类与编码
这是整个方法的技术核心。我们放弃了简单粗暴的关键词匹配(比如搜索“深度学习”或“神经网络”),因为生物医学文本的术语使用极其多样且混杂。一个项目可能通篇不提“AI”,但详细描述了使用“卷积神经网络分析医学影像”;另一个项目可能大谈“人工智能”,实则只是用了一个简单的逻辑回归。因此,我们需要LLM进行语义层面的理解。
第一阶段:广撒网——AI项目初筛我们使用GPT-4o-mini模型,对全部58,746个项目摘要进行零样本(zero-shot)分类。给模型的指令非常明确且保守:“请判断该项目是否实质性涉及人工智能或机器学习方法的开发或应用。” 我们特别强调要区分“实质性应用”和“一般性计算/统计支持”。例如,一个项目说“我们将使用统计软件进行数据分析”,这不属于AI;但如果说“我们将开发一个基于Transformer的模型来预测蛋白质结构”,这就属于AI。这一步是“宽进严出”的漏斗口,旨在尽可能不漏掉真正的AI项目。最终,模型识别出9,363个AI相关项目,占总体的15.9%,构成了我们后续深入分析的队列。
第二阶段:精加工——结构化信息提取对于第一阶段筛选出的9,363个“AI阳性”项目,我们启动了更精细的第二轮处理。这次,我们给LLM一个固定的、结构化的“问卷”(即编码手册),要求它为每个项目输出一个JSON对象。这个问卷包含多个维度:
ai_used_for: AI主要用于什么?(如:药物发现、风险预测、数据整合)ai_contribution: AI的主要贡献类型?(如:新方法开发、现有方法应用、工具构建)primary_focus_areas: 主要疾病/研究领域是什么?(如:癌症、神经退行性疾病、健康差异)data_type: 主要数据类型是什么?(如:基因组学、医学影像、电子健康记录)
通过这种方式,我们将非结构化的项目描述,转化为了可供统计分析的、整齐的表格数据。这一步的挑战在于保持输出的一致性。我们通过严格限定JSON的键名、使用封闭的分类词汇表、并要求在“其他”类别下必须提供简短文字说明,来最大限度地减少模型输出的“漂移”。
2.3 人的价值:定义问题、校准规则与发现“暗物质”
这是“人机协同”中“人”的部分,也是让分析从“自动化”走向“智能化”的关键。LLM是强大的执行者,但人类是策略的制定者和结果的诠释者。
我们的工作流程是迭代式的:
- 人类定义问题:我们首先提出一系列政策导向的研究问题,例如:“AI资金在不同疾病领域的分布公平吗?”、“从研究到临床部署的转化瓶颈在哪里?”
- LLM执行分析:根据这些问题,我们指导LLM(通过自然语言指令)编写相应的Python分析脚本,进行数据聚合、交叉制表、共现分析,并生成图表。
- 人类审查与校准:初步结果出来后,我们重点审查那些模糊地带。例如,在疾病领域分类中,有高达41.5%的项目被模型标记为“其他”。这显然不合理,意味着我们的分类体系有漏洞。这时,我们就需要人工抽样阅读这些“其他”项目的摘要,发现新的、高频出现的领域(如“酒精使用障碍”、“慢性疼痛管理”),然后将其作为新的类别反馈给编码规则。
- 迭代与固化:根据人工校准的结果,我们更新提示词或后处理逻辑,然后重新运行整个分析流程。经过几轮迭代,我们将“其他”类别的比例从41.5%成功降低到了17.7%,并由此发现了23个之前被隐藏的重要研究领域(见表II)。这个过程就像是用LLM这个“探照灯”扫描黑暗的宇宙,而人类则负责识别那些新发现的“恒星”。
2.4 网络科学视角:洞察机构间的合作生态
除了项目本身的内容,我们还关心“谁在和谁合作”。科研创新往往产生于思想的碰撞与合作。我们利用项目数据构建了一个大学合作网络。在这个网络中,每个节点是一所大学,如果两所大学共同出现在同一个“项目集群”(基于文本相似性聚类)中,它们之间就建立一条连接,连接的权重是它们共同出现的次数。
通过社区检测算法(如Louvain算法),我们可以自动识别出网络中联系紧密的“小团体”。通过计算中心性指标(如度中心性、中介中心性),我们可以识别出网络中的“核心枢纽”(合作最多的机构)和“关键桥梁”(连接不同社区的机构)。这种分析能揭示出无形的合作格局:是少数几家巨头垄断了合作,还是形成了一个去中心化的、活跃的网络?这对于科研管理者和政策制定者评估研究生态系统的健康度和韧性至关重要。
3. 核心发现深度解读:数据背后的故事与警示
当58,746个项目经过我们精心设计的流水线处理后,一系列数字开始讲述一个关于雄心、失衡与挑战的复杂故事。这些发现不仅仅是统计结果,更是理解当前生物医学AI研究现状与未来的钥匙。
3.1 繁荣与溢价:AI已成为主流,且“更受青睐”
我们的分析证实,AI已不再是生物医学研究的边缘工具,而是主流方法之一。在所有NIH资助项目中,15.9%(9,363个)被识别为实质性应用了AI/ML技术。这意味着,每资助6个研究,就有1个与AI紧密相关。更引人注目的是资金上的“溢价”:AI项目的平均资助金额为675,129美元,而非AI项目的平均金额为595,135美元,溢价达到13.4%。
这个溢价背后可能有几个原因:首先,AI研究往往需要昂贵的计算资源(如GPU集群)、数据存储和高技能人才,成本天然较高。其次,NIH可能有意将AI视为战略优先领域,通过资金杠杆鼓励其发展。最后,这也可能反映了AI项目本身的目标更宏大、更偏向于基础设施建设(如大型数据平台、通用算法开发),这类项目通常预算更高。
从应用场景看,AI项目主要集中在三大方向(见图3B):
- 发现研究(44.1%):这是最大的类别,包括新药靶点发现、生物标志物识别、疾病机理探索等。AI在这里扮演“超级显微镜”和“灵感引擎”的角色。
- 预测与风险评估(36.7%):利用患者数据预测疾病进展、治疗反应或并发症风险。这是AI迈向临床决策支持的关键一步。
- 数据整合与合成(26.2%):将多组学数据(基因组、蛋白质组等)、影像数据、临床记录等进行融合分析。这是处理生物医学大数据复杂性的基石。
值得注意的是,数据整合类项目虽然数量不是最多,但平均资助强度最高(81.6万美元),总资助额达到18.8亿美元。这强烈暗示,NIH正在大力投资于AI研究的基础“基座”——那些能够打通数据孤岛、构建可复用分析平台的项目。
3.2 失衡的版图:疾病领域间的“数字鸿沟”
AI的繁荣并非雨露均沾。我们的数据显示,AI投资呈现出惊人的集中度(见图3D):
- 癌症与肿瘤学:1,814个项目(占AI项目的19.4%),毫无悬念地位居榜首。这得益于癌症研究长期积累的高质量影像、基因组和临床数据。
- 衰老与神经退行性疾病:1,572个项目(16.8%)。阿尔茨海默病、帕金森病等是重大社会挑战,且神经影像学数据丰富。
- 心理健康与物质使用障碍:1,393个项目(14.9%)。新兴的数字化表型(如语音、手机使用数据)和电子健康记录为AI应用提供了可能。
仅这三个领域就吞噬了50.1%的AI资助。与之形成刺眼对比的是健康差异与少数族裔健康研究——这个被NIH列为战略核心的领域,仅有536个AI项目,占比仅5.7%。
这种失衡不能简单归咎于“研究不成熟”。它反映的是一个结构性困境:AI,尤其是数据饥渴的深度学习模型,在那些已经拥有完善数据基础设施、标准化数据采集流程的“富数据”领域(如癌症影像)如鱼得水。而健康差异研究往往涉及社会决定因素、行为数据、社区健康信息等,这些数据非结构化程度高、获取困难、伦理审查复杂,形成了天然的“数据洼地”。结果就是,最需要创新工具来解决的公平性问题,反而最缺乏工具。
3.3 转化的断层:从论文到病床的漫长之路
或许最令人警醒的发现是关于研究阶段的分布(见图3F)。我们将项目按研究到部署的 pipeline 进行分类:
- 研究与开发阶段:79.0%(7,393个项目)。绝大多数AI工作仍停留在实验室,专注于算法开发、概念验证和初步验证。
- 临床部署与实施阶段:仅14.7%(1,372个项目)。这些项目致力于将AI模型整合到真实的临床工作流中,进行前瞻性验证,或评估其对患者结局和医疗成本的影响。
- 其他/未明确阶段:6.4%。
这个“倒金字塔”结构揭示了一个严峻的“死亡之谷”问题。将一项AI技术从实验室的准确率(AUC)变成诊室里的诊疗指南,需要跨越巨大的鸿沟:需要解决模型在真实世界数据下的泛化能力、与医院信息系统的集成、临床医生的接受度、严格的监管审批、以及可持续的商业模式。我们的数据表明,NIH的资助机制和科研文化,仍然极大地偏向于前端的基础发现,而对后端艰难但至关重要的实施科学投入不足。
3.4 健康差异研究的独特面貌:预测为主,影像缺失
当我们单独审视那5.7%的健康差异AI项目时,发现其技术应用图谱与整体截然不同(见图3G):
- 预测与风险评估(31.4%)和数据整合(26.0%)是绝对主力。这很可能是因为健康差异研究高度依赖多源数据(临床、社会、经济、环境)来构建风险预测模型。
- 发现研究仅占12.3%,远低于整体的44.1%。这可能是因为健康差异的生物学机制更为复杂,涉及基因-环境互作,单纯通过数据挖掘发现新靶点的难度更大。
- 医学影像应用仅占0.9%,这是一个惊人的低谷。相比之下,影像分析在癌症AI中占比高达37%。这暴露了一个巨大的“方法论差距”:计算机视觉这门AI皇冠上的明珠,几乎完全没有被用于解决健康公平问题。这可能源于缺乏针对少数族裔或特定人群的标准化影像数据集,也反映了该领域研究者在计算视觉方法上的训练不足。
3.5 合作网络的秘密:枢纽、桥梁与孤岛
对79所大学合作网络的分析,描绘了一幅既有机协作又等级分明的图景(见图2, 4):
- 社区结构:网络自然地分成了6个主要社区(Cluster),每个社区由几所核心大学锚定。例如,一个社区由约翰斯·霍普金斯大学、明尼苏达大学等主导;另一个由埃默里大学、阿拉巴马大学伯明翰分校等主导。这说明合作并非随机,而是围绕地理邻近性、历史联系或专业互补性形成了稳固的“小圈子”。
- 枢纽与桥梁的分离:
- 枢纽(Hub):像约翰斯·霍普金斯大学(合作连接数29)这样的机构,是社区内部的“超级连接器”,拥有大量的本地合作。
- 桥梁(Bridge):像华盛顿大学(中介中心性最高)这样的机构,虽然总连接数不是最多,但占据了连接不同社区的关键位置,是思想和资源跨社区流动的“守门人”。
- 不平等的合作能力:网络结构呈现“重尾分布”——少数机构拥有绝大多数的合作链接。这意味着,大部分大学在合作网络中处于边缘位置,而影响力高度集中在少数精英机构手中。这种结构虽然效率高,但也脆弱。如果关键的桥梁机构出现问题,整个网络的连通性可能会受到严重影响。
4. 从分析到行动:政策启示与未来方向
基于以上发现,我们得到的不仅仅是一份诊断书,更是一份行动路线图的草稿。对于NIH、研究机构乃至整个生物医学界,这些数据指向了几个清晰而紧迫的行动方向。
4.1 弥合领域鸿沟:主动设计“公平AI”资助计划
健康差异研究中AI的严重 underrepresented,是一个必须通过结构性干预来解决的问题。我们建议NIH考虑设立专项资助计划,例如“健康差异AI研究先锋计划”。这类计划应具备以下特点:
- 数据先行:配套资助用于构建包容性的、代表不同人群的基准数据集(包括影像、基因组、电子健康记录等),并建立数据共享机制与伦理框架。
- 方法适配:鼓励开发适用于小样本、不平衡数据、多模态社会决定因素数据的AI方法,而不仅仅是套用现有的大数据模型。
- 团队构建:强制要求或优先资助由健康差异研究专家与AI方法学家、临床实施科学家组成的跨学科团队。
4.2 打通转化瓶颈:加大对实施科学的投入
将79%的研发比例与14.7%的部署比例拉近,需要资助机制的改革。NIH可以:
- 设立“AI转化奖”:专门资助那些致力于将已验证的AI模型推进到真实世界验证、卫生技术评估(HTA)和初步推广的项目。评审标准应强调与医疗系统的整合计划、可扩展性评估和成本效益分析。
- 改革现有机制:在传统的R01(研究项目基金)中,增加对“研究计划中实施路径”的考核权重。在U系列(合作项目)或P系列(中心项目)中,明确要求包含实施科学核心。
- 搭建产学研医桥梁:资助建立区域性的AI临床转化中心,作为模型验证、法规咨询和产业对接的中介平台。
4.3 优化合作网络:培育桥梁与赋能边缘
当前的合作网络在带来效率的同时,也可能固化不平等,抑制创新思想的流动。政策可以:
- 专门资助“桥梁性”合作:设立基金,鼓励目前处于网络核心的机构与边缘机构、少数族裔服务机构(MSI)、社区医院等建立合作伙伴关系。评审时给予此类跨阶层、跨地域的合作额外加分。
- 支持“网络建设”本身:资助举办专注于健康AI的暑期学校、研讨会和黑客松,并有意邀请来自不同层级机构的参与者,为新的合作创造“碰撞”机会。
- 提升数据与工具的可得性:通过云平台、软件即服务(SaaS)等方式,降低边缘机构使用先进AI工具和数据资源的门槛,减少其对核心机构的单向依赖。
4.4 革新分析方法:将动态监测制度化
我们本次的研究是一个静态的快照。理想的状态是建立一个动态的、可持续的研究组合监测系统。这需要:
- 流程自动化:将我们验证过的LLM分析流水线封装成工具,定期(如每财年)自动运行,生成标准化报告。
- 指标仪表盘:为NIH项目官员、研究所主任和国会监督机构开发一个实时仪表盘,可视化展示AI资助在不同疾病领域、机构类型、研究阶段的分布与变化趋势。
- 融入决策循环:将分析结果作为每年预算分配、战略规划调整和新的资助计划(FOA)设计的重要证据输入。让数据驱动的洞察真正影响资源的流向。
5. 反思与展望:人机协同分析的边界与未来
完成这项大规模分析后,我个人的体会是,技术本身既是放大镜,也是透视镜。LLM让我们第一次有能力对如此浩瀚的科研文本进行“普查”,但最终让数据产生智慧的,依然是人类提出的问题、设计的框架和赋予的解读。
我们构建的“人机协同”模式,其力量不在于用机器完全取代人,而在于重新分工:让机器处理人类不擅长的“规模”(阅读数万文档)和“一致性”(应用统一规则),让人专注于机器不擅长的“定义问题”、“理解语境”和“价值判断”。当模型把41.5%的项目扔进“其他”这个垃圾筐时,是人类的好奇心驱使我们去翻检这个筐,并发现了“酒精使用障碍”、“慢性疼痛”这些被主流分类体系忽略的宝藏。这个过程本身,就是对人机关系最好的诠释。
当然,这种方法也有其局限。首先,它严重依赖于摘要文本的质量和完整性。如果一份申请书的摘要写得含糊或未能充分体现其AI部分,它就可能被漏掉。其次,我们的分类体系尽管经过迭代优化,仍可能无法捕捉AI应用最前沿、最跨界的形态。最后,网络分析基于项目层面的共现,无法揭示合作的具体强度与模式(如谁是主导,谁是参与)。
展望下一步,一个激动人心的方向是将这种分析从“描述现状”推向“预测未来”和“模拟干预”。例如,能否利用这些历史数据训练模型,预测哪些新兴的AI技术组合最有可能在未来五年产生高影响力?能否模拟不同的资助政策(如向健康差异领域倾斜10%的AI资金)会对整个研究生态产生怎样的连锁反应?当分析工具从后视镜变成导航仪,科研资助才能真正从经验主义走向科学决策。
这项工作的最终目的,不是批评,而是建设。它提供了一面镜子,让资助机构、研究者和政策制定者看清AI在生物医学领域的真实渗透图景——哪里光芒万丈,哪里仍是阴影。在资源有限的世界里,公平与效率的权衡永存。但通过更精细的测量、更透明的分析和更勇敢的政策实验,我们至少可以努力确保,这场由AI驱动的医学革命,其福祉能够更均衡地泽及每一个人,而不是在无形中加深已有的沟壑。这或许就是数据驱动的研究管理,所能追求的最高价值。