79万条中文医疗对话数据:如何用真实医患问答训练你的医疗AI助手
【免费下载链接】Chinese-medical-dialogue-dataChinese medical dialogue data 中文医疗对话数据集项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data
在医疗人工智能快速发展的今天,高质量的训练数据已成为构建智能医疗系统的关键基石。中文医疗对话数据集(Chinese-medical-dialogue-data)正是这样一个宝贵的资源宝库——它汇集了79万余条真实医患对话,覆盖内科、外科、妇产科等六大核心科室,为开发者提供了训练医疗NLP模型的黄金标准数据。
数据宝库:六大科室的医疗对话全景
打开项目文件夹,你会看到一个结构清晰的目录体系:
Data_数据/ ├── IM_内科/ # 22万条内科问答 ├── OAGD_妇产科/ # 18万条妇产科问答 ├── Surgical_外科/ # 11万条外科问答 ├── Pediatric_儿科/ # 10万条儿科问答 ├── Andriatria_男科/ # 9.4万条男科问答 └── Oncology_肿瘤科/ # 7.5万条肿瘤科问答每个科室文件夹中都包含一个精心整理的CSV文件,数据格式简洁而实用:
| 字段 | 描述 | 示例 |
|---|---|---|
| department | 科室分类 | 心血管科 |
| title | 问题标题 | 高血压患者能吃党参吗? |
| ask | 详细提问 | 我有高血压这两天女婿来的时候给我拿了些党参泡水喝... |
| answer | 专业回答 | 高血压病人可以口服党参的。党参有降血脂,降血压的作用... |
数据分布:医疗AI训练的理想配比
查看项目中的data_distribution.txt文件,你可以直观地看到数据的科室分布:
总计: 792,099 条对话数据 内科 | ████████████████████████████████████████ | 220,606 条 (27.9%) 妇产科 | █████████████████████████████████░░░░░░░ | 183,751 条 (23.2%) 儿科 | ██████████████████░░░░░░░░░░░░░░░░░░░░░░ | 101,602 条 (12.8%) 外科 | █████████████████████░░░░░░░░░░░░░░░░░░░ | 115,991 条 (14.6%) 男科 | █████████████████░░░░░░░░░░░░░░░░░░░░░░░ | 94,596 条 (11.9%) 肿瘤科 | █████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░ | 75,553 条 (9.5%)这种分布反映了真实医疗咨询的场景比例,内科和妇产科占据了半壁江山,这与现实中这两个科室咨询量最大的情况完全吻合。
实战指南:三分钟启动你的医疗AI项目
第一步:获取数据
git clone https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data cd Chinese-medical-dialogue-data第二步:数据预处理
项目贴心地提供了Data_数据/IM_内科/数据处理.py脚本,展示了如何将CSV格式的对话数据转换为适合模型训练的文本格式:
# 示例:将内科数据转换为问答对格式 asklist = [] answerlist = [] with open('内科5000-33000.csv') as f: for i in range(0,5000): lin = f.readline()[0:-1].split(',') if i==0: continue if len(lin) == 4: if len(lin[1]+','+lin[2])<200 and len(lin[3])<200: asklist.append(lin[1]+','+lin[2]) answerlist.append(lin[3]) with open('内科.txt','w') as f: for i in range(len(asklist)): f.write(asklist[i]+'\n'+answerlist[i]+'\n\n\n')第三步:模型训练数据准备
对于ChatGLM-6B等大语言模型的微调,数据需要转换为特定的instruction格式:
{ "instruction": "现在你是一个神经脑外科医生,请根据患者的问题给出建议:", "input": "癫痫病能吃德巴金吗,错觉,有时候感觉看到的和听到的不太一样。", "output": "巴金是广谱抗病药物,主要作用于中枢神经系统,对动物的药理研究发现德巴金对各种癫痫的实验模型(全身性和部分性)均有抗惊厥作用,对人的各种类型癫痫发作有抑制作用,作用机理可能与增加γ-氨基丁酸的浓度有关。主要是治癫痫药物。建议在医生的知道下,用药,祝您身体早日康复。" }性能验证:微调效果显著提升
项目README中展示了在ChatGLM-6B模型上的微调结果,数据令人振奋:
| 评估指标 | 基础模型 | P-Tuning V2 | LoRA | LoRA-INT8 |
|---|---|---|---|---|
| BLEU-4 | 3.21 | 3.55 | 4.21 | 3.58 |
| Rouge-1 | 17.19 | 18.42 | 18.74 | 17.88 |
| 训练参数占比 | / | 0.20% | 0.06% | 0.06% |
关键发现:使用LoRA(Low-Rank Adaptation)技术,仅需调整0.06%的模型参数,就能将BLEU-4分数从3.21提升到4.21,相对提升超过31%!这意味着你可以在保持模型大部分参数不变的情况下,用极小的计算成本获得显著的性能提升。
应用场景:从学术研究到产品落地
场景一:智能分诊系统
利用79万条对话数据,你可以训练一个能够理解症状描述并推荐合适科室的AI分诊助手。想象一下,用户输入"最近总是头晕、心慌",AI能够准确判断这可能是心血管科或神经内科的问题。
场景二:医疗问答机器人
基于真实医患对话训练的专业问答机器人,能够提供准确的医疗建议。例如,当用户询问"糖尿病患者可以吃水果吗?",AI可以基于数据中的专业回答给出科学建议。
场景三:医学教育辅助工具
医学生可以通过与AI对话来练习问诊技巧,AI基于真实病例数据提供反馈,帮助医学生更好地掌握临床沟通技能。
数据质量:专业性与安全性的双重保障
专业性验证
所有对话都来自真实的医疗咨询场景,涵盖了从常见症状到复杂疾病的广泛话题。数据中的医学术语使用准确,回答内容符合临床规范。
隐私保护
数据集经过了严格的脱敏处理,所有患者个人信息都被移除,确保符合医疗数据安全标准。你可以在合规的前提下安心使用这些数据进行研究和开发。
快速上手:构建你的第一个医疗AI应用
环境准备
import pandas as pd import numpy as np # 加载内科数据 df = pd.read_csv('Data_数据/IM_内科/内科5000-33000.csv', encoding='GBK') print(f"数据总量:{len(df)}条") print(f"字段信息:{df.columns.tolist()}") print(f"示例数据:\n{df.head()}")数据分析
# 统计各科室问题长度分布 df['question_length'] = df['ask'].str.len() df['answer_length'] = df['answer'].str.len() print(f"平均问题长度:{df['question_length'].mean():.1f}字符") print(f"平均回答长度:{df['answer_length'].mean():.1f}字符") print(f"最长回答:{df['answer_length'].max()}字符")构建训练集
# 创建instruction格式的训练数据 train_data = [] for _, row in df.iterrows(): instruction = f"现在你是一个{row['department']}医生,请根据患者的问题给出专业建议:" train_data.append({ "instruction": instruction, "input": row['ask'], "output": row['answer'] })未来展望:医疗AI的无限可能
这个数据集不仅是一个静态的资源库,更是一个动态的起点。随着医疗AI技术的不断发展,它将在以下方向发挥更大价值:
多模态融合:未来可以结合医学影像、检验报告等多维度数据,构建更全面的医疗AI系统。
个性化医疗:基于患者的病史和对话模式,提供个性化的健康管理建议。
实时更新:随着医疗知识的更新,数据集可以持续扩充,保持时效性和前沿性。
跨语言应用:虽然目前是中文数据集,但其结构和模式可以为其他语言的医疗AI开发提供参考。
开始你的医疗AI之旅
无论你是学术研究者、AI工程师,还是医疗行业的创新者,这个79万条的中文医疗对话数据集都是你探索医疗AI领域的绝佳起点。它为你提供了:
- 真实场景:基于实际医患互动的数据,而非模拟对话
- 专业内容:涵盖六大科室的专业医疗知识
- 易用格式:清晰的CSV结构和预处理脚本
- 已验证效果:在ChatGLM-6B等模型上已验证的显著提升
现在就开始使用这个数据集,构建能够真正帮助医生和患者的智能医疗系统吧!医疗AI的未来,从理解真实的医患对话开始。
【免费下载链接】Chinese-medical-dialogue-dataChinese medical dialogue data 中文医疗对话数据集项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-medical-dialogue-data
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考