药品说明书识别助手：帮助老人理解用药方法-平芜编程栈

药品说明书识别助手：帮助老人理解用药方法

随着老龄化社会的到来，老年人在日常生活中面临的用药安全问题日益突出。药品说明书通常包含大量专业术语、小字号文字和复杂的用法用量信息，对视力下降或认知能力减弱的老年人而言，极易造成误服、漏服或剂量错误。据国家药监局统计，超过60%的老年人曾因看不懂说明书而出现过用药偏差。

为解决这一现实痛点，我们基于阿里开源的万物识别-中文-通用领域模型，构建了一套“药品说明书识别助手”系统。该系统能够自动识别药品包装或说明书图片中的关键信息（如药品名称、用法用量、禁忌症等），并通过语音播报或大字显示的方式辅助老年人正确用药。本文将详细介绍该系统的实现原理、技术选型、核心代码及落地优化策略。

万物识别-中文-通用领域：技术背景与核心优势

技术定位与行业价值

“万物识别-中文-通用领域”是阿里巴巴通义实验室推出的多模态视觉理解模型，专为中文场景下的图像内容识别设计。其核心目标是在无需定制训练的前提下，精准识别各类日常物品、文本信息及其上下文语义关系。

相较于传统OCR工具仅能提取文字，“万物识别”模型具备更强的语义理解能力。例如，在一张药品说明书图片中，它不仅能识别出“每日2次，每次1片”，还能判断这组信息属于“用法用量”类别，并关联到具体的药品名称。

技术类比：如果说传统OCR像一个只会抄写文字的书记员，那么“万物识别”更像是一个能读懂文档并总结重点的助理医生。

模型架构与工作逻辑

该模型基于Transformer架构构建，采用大规模图文对数据进行预训练，支持端到端的视觉-语言联合推理。其处理流程如下：

图像编码：使用ViT（Vision Transformer）将输入图片转换为特征向量；
文本提示引导：通过自然语言指令（prompt）引导模型关注特定信息（如“找出用法用量”）；
跨模态对齐：将图像区域与文本语义进行匹配，定位关键信息块；
结构化输出：返回JSON格式的结果，包含字段名、原文内容和置信度。

这种“以问代检”的交互方式极大提升了信息提取的灵活性和准确性，特别适合非结构化文档的解析任务。

系统实现：从图片到可读信息的完整链路

技术方案选型对比

| 方案 | 准确率 | 中文支持 | 易用性 | 是否需训练 | 成本 | |------|--------|----------|--------|-------------|-------| | 百度OCR通用文字识别 | 高 | 强 | 高 | 否 | API收费 | | PaddleOCR自定义训练 | 极高 | 极强 | 中 | 是 | 免费但耗时 | | 阿里万物识别-中文通用 | 高 | 强（原生优化） | 高 | 否 | 开源免费 |

综合考虑开发效率、中文适配性和部署成本，我们最终选择阿里开源的万物识别模型作为核心技术底座。它无需额外训练即可直接用于药品说明书这类复杂版式文档的解析，显著降低了工程门槛。

核心实现步骤详解

步骤1：环境准备与依赖安装

系统运行于PyTorch 2.5环境，已预先配置好所需依赖。激活命令如下：

conda activate py311wwts

/root/requirements.txt文件中包含以下关键依赖：

torch==2.5.0 transformers opencv-python Pillow numpy

确保所有包均已安装：

pip install -r /root/requirements.txt

步骤2：推理脚本编写（`推理.py`）

以下是完整的Python推理代码，实现了从图片加载到结构化信息提取的全过程：

# -*- coding: utf-8 -*- import cv2 import numpy as np from PIL import Image import requests import json # 配置模型服务地址（假设本地部署） MODEL_URL = "http://localhost:8080/predict" # 示例API地址 def load_image(image_path): """加载图片并转为RGB格式""" img = cv2.imread(image_path) if img is None: raise FileNotFoundError(f"无法加载图片: {image_path}") img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) return Image.fromarray(img_rgb) def call_ali_model(image: Image.Image, prompt: str): """ 调用阿里万物识别模型API :param image: PIL.Image对象 :param prompt: 查询指令，如“请提取药品名称和用法用量” :return: JSON响应 """ # 将图像转为字节流 byte_arr = np.array(image) _, buffer = cv2.imencode('.png', cv2.cvtColor(byte_arr, cv2.COLOR_RGB2BGR)) files = {'image': ('image.png', buffer.tobytes(), 'image/png')} data = {'prompt': prompt} try: response = requests.post(MODEL_URL, files=files, data=data) response.raise_for_status() return response.json() except requests.RequestException as e: print(f"调用模型失败: {e}") return {"error": str(e)} def parse_medical_instructions(image_path: str): """主函数：解析药品说明书""" # 加载图片 image = load_image(image_path) # 定义查询提示词 prompt = """ 请从这张药品说明书中提取以下信息： - 药品名称 - 主要成分 - 功能主治 - 用法用量（重点提取） - 禁忌 - 有效期 要求以JSON格式返回，字段名为英文小写snake_case。 """ # 调用模型 result = call_ali_model(image, prompt) if "error" in result: return result # 后处理：清洗和标准化输出 cleaned = {} for k, v in result.items(): if isinstance(v, str): cleaned[k] = v.strip().replace('\n', ' ') else: cleaned[k] = v return cleaned if __name__ == "__main__": # 修改此处路径以使用不同图片 image_file = "/root/workspace/bailing.png" # 可替换为上传后的实际路径 output = parse_medical_instructions(image_file) print("=== 药品说明书解析结果 ===") print(json.dumps(output, indent=2, ensure_ascii=False))

代码解析

第17–25行：使用OpenCV加载图片并转换色彩空间，确保与模型输入一致；
第30–45行：封装HTTP请求，模拟调用本地部署的万物识别服务（实际项目中可通过Docker容器部署）；
第50–55行：精心设计的自然语言提示（prompt），明确要求返回结构化JSON，提升输出一致性；
第69行：关键路径设置，用户上传新图片后必须修改此路径。

实践问题与优化方案

问题1：模型未本地部署，如何测试？

目前官方尚未提供完整可离线运行的权重包。我们采用以下两种替代方案：

使用阿里云视觉智能开放平台API（推荐初期验证）：
注册账号并申请“通用图文识别”服务
获取AccessKey后替换MODEL_URL和鉴权逻辑
注意：涉及隐私数据时需脱敏处理
Mock模式开发调试：python def call_ali_model(image: Image.Image, prompt: str): return { "drug_name": "百令胶囊", "usage_dosage": "口服，一次2粒，一日3次。", "contraindications": "孕妇禁用", "valid_until": "2026年5月" }

问题2：识别结果不稳定怎么办？

我们在测试中发现，部分手写标注或模糊图片识别准确率下降明显。为此提出三项优化措施：

图像预处理增强python def preprocess_image(image_path): img = cv2.imread(image_path) # 放大至原始尺寸2倍 img = cv2.resize(img, None, fx=2.0, fy=2.0, interpolation=cv2.INTER_CUBIC) # 自适应直方图均衡化 clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8)) gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) enhanced = clahe.apply(gray) return Image.fromarray(enhanced)
多轮Prompt策略
分多次提问，避免单次请求信息过载：
第一轮：“找出药品名称”
第二轮：“找出用法用量描述”
第三轮：“是否存在禁忌人群？”
后处理规则引擎对“用法用量”字段做正则提取：python import re def extract_dosage(text): pattern = r"(\d+次.{0,3}\d+片)" match = re.search(pattern, text) return match.group(0) if match else text

用户体验升级：从识别到辅助决策

识别只是第一步，真正的价值在于“让老人看得懂、记得住”。我们在系统中加入以下功能：

语音播报模块（集成pyttsx3）

import pyttsx3 def speak_instruction(parsed_result): engine = pyttsx3.init() engine.setProperty('rate', 150) # 语速适中 dosage = parsed_result.get('usage_dosage', '未识别到用法用量') message = f"药品名称：{parsed_result['drug_name']}。{dosage}。请注意：{parsed_result.get('contraindications', '')}" engine.say(message) engine.runAndWait() # 在主程序末尾调用 speak_instruction(output)

大字体可视化界面（Flask简易Web）

创建/root/workspace/app.py：

from flask import Flask, render_template_string app = Flask(__name__) HTML_TEMPLATE = """ <!DOCTYPE html> <html> <head><title>用药助手</title> <style> body { font-size: 28px; text-align: center; margin: 50px; line-height: 2; } </style> </head> <body> <h1>{{ name }}</h1> <p><strong>用法用量：</strong>{{ dosage }}</p> <p><strong>禁忌：</strong>{{ contraindications }}</p> <button onclick="speak()">语音播报</button> <script> function speak() { // 这里可集成Web Speech API alert("点击播放语音"); } </script> </body> </html> """ @app.route('/') def display(): return render_template_string(HTML_TEMPLATE, name=output.get('drug_name', '未知'), dosage=output.get('usage_dosage', '未识别'), contraindications=output.get('contraindications', '无'))

启动服务后，老人可用平板电脑查看清晰放大的用药信息。

总结与实践建议

核心经验总结

技术选型决定开发效率：阿里“万物识别-中文-通用领域”模型极大简化了非结构化文档的信息抽取流程，尤其适合快速原型开发；
Prompt工程至关重要：清晰、结构化的自然语言指令直接影响输出质量，建议反复迭代优化；
端侧部署仍是挑战：当前模型体积较大，难以直接嵌入手机App，建议优先采用云端API+边缘缓存策略。

最佳实践建议

【必做】文件路径管理：上传新图片后务必修改推理.py中的image_file变量；
【推荐】工作区复制操作：bash cp 推理.py /root/workspace cp bailing.png /root/workspace便于在IDE左侧实时编辑与调试；
【进阶】自动化流水线：结合微信机器人或家庭智能屏，实现“拍照→识别→播报”全自动流程。

展望：打造智能用药生态系统

未来我们将进一步拓展该系统的应用场景：

药品相互作用检测：接入临床知识库，提醒多种药物联用风险；
服药提醒日历：根据用法用量生成个性化提醒计划；
家属协同看护：通过小程序同步用药记录，子女远程掌握父母健康状态。

科技的意义不在于炫技，而在于温暖人心。这套“药品说明书识别助手”，正是AI技术普惠化的一次微小但坚定的尝试——让每一位老人都能在数字时代安心用药，活得更有尊严。

药品说明书识别助手：帮助老人理解用药方法