【哈工大-张永兵-arXiv26】PathReasoner-R1：通过知识引导的策略优化将结构化推理融入病理视觉语言模型-平芜编程栈

文章：PathReasoner-R1: Instilling Structured Reasoning into Pathology Vision-Language Model via Knowledge-Guided Policy Optimization

代码：https://github.com/cyclexfy/PathReasoner-R1

单位：哈尔滨工业大学（深圳）、微软研究院、新加坡国立大学、德累斯顿工业大学

一、问题背景

当前病理视觉语言模型（VLMs）虽在图像理解上表现出色，但诊断过程存在明显短板：直接输出结论却缺乏可验证的推理依据，就像医生只给诊断结果却不说明判断逻辑。这种“黑箱式”诊断不仅难以获得临床信任，还让专家难以纠错，甚至会出现“编造理由”“表层判断”等问题。同时，领域内缺乏大规模、高质量的全切片图像（WSI）推理数据集，现有训练机制也难以让模型学到贴合病理诊断的严谨逻辑，双重瓶颈制约了AI在病理诊断中的可靠应用。

二、方法创新

构建首个大规模推理数据集（PathReasoner）：整合权威医学知识图谱，从真实病理报告中提取关键信息，生成2.2万+高质量样本。每个样本都包含“病理发现-推理过程-诊断结论”的完整结构，严格贴合人类病理医生的诊断流程，避免了传统数据集缺乏推理链条的缺陷。

双阶段训练框架：先通过“轨迹掩码监督微调”，将推理链随机截断生成20万+增强样本，让模型学会补全逻辑；再通过“推理导向强化学习”，用知识感知的多粒度奖励函数（包括格式、语义、实体奖励）引导模型，确保推理符合医学事实而非仅追求结果正确。
实体奖励机制：基于医学知识图谱设计实体对齐奖励，通过计算模型预测实体与真实实体的匹配度，抑制“幻觉”和表层学习，让推理每一步都扎根于医学常识。

三、实验结果

性能领先：在自建数据集和SlideBench、CPath等公开基准上，PathReasoner-R1的诊断准确率、推理质量评分均达当前最优，BERT得分0.779，LLM评分2.583，远超传统模型和其他推理型模型。
跨尺度适配：不仅在全切片图像（WSI）任务中表现突出，在局部区域（ROI）分析任务中也保持竞争力，平均准确率达63.91%，证明推理能力可灵活迁移。
推理可靠：在模糊病例中，能避免其他模型的“虚假证据”问题，通过严格的视觉特征匹配和逻辑排除，准确得出诊断，推理链与专家逻辑的对齐度提升8.1%。