OpenClaw多模态技能开发：为Phi-3-vision-128k-instruct增加PDF图表提取功能-平芜编程栈

OpenClaw多模态技能开发：为Phi-3-vision-128k-instruct增加PDF图表提取功能

1. 为什么需要PDF图表提取能力

上周我在研究一份技术白皮书时遇到了典型痛点——PDF里那些精美的架构图和流程图无法直接复制使用。手动截图再粘贴到文档里不仅效率低下，更重要的是失去了图表中的结构化信息。这让我开始思考：能否让OpenClaw像人类助理一样，自动识别PDF中的图表并生成可编辑的Alt文本？

经过两天折腾，我成功为Phi-3-vision-128k-instruct模型开发了一个PDF图表提取技能。现在只需对OpenClaw说"提取这份PDF第15页的图表描述"，它就能自动完成区域定位、图像提取、多模态分析的全流程。这个案例特别适合展示如何扩展OpenClaw的文档处理能力边界。

2. 技术方案设计思路

2.1 核心组件分工

整个方案涉及三个关键组件协同工作：

PyMuPDF：负责PDF解析和图表区域检测
Phi-3-vision模型：处理图像理解与文本生成
OpenClaw技能框架：封装业务流程并提供自然语言交互

我最初尝试用传统的OCR方案，但发现对复杂图表的信息提取效果很差。后来意识到多模态大模型才是解决这个问题的正确方向——Phi-3-vision不仅能识别图表元素，还能理解它们之间的逻辑关系。

2.2 处理流程分解

典型的执行链路是这样的：

接收用户指定的PDF路径和页码范围
使用PyMuPDF定位页面中的图像块（非文字区域）
将图像块转为PNG格式并保存临时文件
调用Phi-3-vision接口进行图像理解
将模型返回的Alt文本整理为结构化输出
清理临时文件并返回结果

这个过程中最耗时的部分是图像块检测——有些PDF会把一个图表拆分成多个矢量图形对象，需要合并处理。

3. 关键代码实现

3.1 安装依赖环境

首先需要准备Python环境（建议3.9+）：

pip install pymupdf pillow requests python-dotx

3.2 PDF图表检测核心代码

import fitz # PyMuPDF def extract_figures(pdf_path, page_range=None): doc = fitz.open(pdf_path) figures = [] # 处理指定页码范围 start_page, end_page = parse_page_range(page_range, doc.page_count) for page_num in range(start_page, end_page + 1): page = doc.load_page(page_num) image_areas = [] # 获取页面所有图像块 for img in page.get_images(): image_areas.append(img['bbox']) # 获取矢量图形（可能包含图表） for path in page.get_drawings(): if is_chart_path(path): # 自定义判断逻辑 image_areas.append(path['rect']) # 合并重叠区域 merged_areas = merge_rectangles(image_areas) for area in merged_areas: pix = page.get_pixmap(clip=area) img_path = f"temp_page{page_num}_{len(figures)}.png" pix.save(img_path) figures.append({ "page": page_num + 1, # 转为1-based "position": area, "image_path": img_path }) return figures

3.3 多模态处理接口封装

import requests from PIL import Image import base64 def query_phi3_vision(image_path, prompt_template): with open(image_path, "rb") as img_file: img_base64 = base64.b64encode(img_file.read()).decode('utf-8') headers = {"Content-Type": "application/json"} payload = { "model": "phi-3-vision-128k-instruct", "messages": [{ "role": "user", "content": [ {"type": "text", "text": prompt_template}, {"type": "image_url", "image_url": f"data:image/png;base64,{img_base64}"} ] }] } response = requests.post( "http://localhost:8000/v1/chat/completions", headers=headers, json=payload ) return response.json()["choices"][0]["message"]["content"]

4. OpenClaw技能集成

4.1 创建技能脚手架

clawhub create pdf-figure-extractor --template=python

这会生成标准的技能目录结构，我们需要重点关注skill.py：

from openclaw.skill import SkillBase class PDFFigureExtractor(SkillBase): def __init__(self): super().__init__( name="pdf_figure_extractor", description="Extract and describe figures from PDF documents", triggers=["提取PDF图表", "分析文档图表"] ) async def execute(self, task_input): # 解析用户输入中的PDF路径和页码 params = self.parse_input(task_input.text) # 执行提取流程 figures = extract_figures(params["path"], params["pages"]) results = [] for fig in figures: description = query_phi3_vision( fig["image_path"], "请详细描述这个技术图表，包括图表类型、数据呈现方式和关键结论:" ) results.append({ "page": fig["page"], "description": description, "preview": fig["image_path"] }) # 返回结构化结果 return { "status": "success", "figures": results }

4.2 配置模型端点

在~/.openclaw/openclaw.json中添加Phi-3-vision的访问配置：

{ "models": { "providers": { "local_phi3": { "baseUrl": "http://localhost:8000/v1", "api": "openai-completions", "models": [ { "id": "phi-3-vision-128k-instruct", "name": "Phi-3 Vision Local", "contextWindow": 128000 } ] } } } }

5. 实际应用效果测试

5.1 测试文档准备

我选择了一份云计算架构白皮书作为测试文档，其中包含：

3个系统架构图
2个数据流程图
5个性能对比图表

5.2 执行过程示例

通过OpenClaw Web控制台输入：

请提取/document/cloud_whitepaper.pdf第5-7页的所有图表，并生成技术描述

5.3 结果输出示例

{ "figures": [ { "page": 5, "description": "这是一个微服务架构图，展示了一个电商平台的组件分解...", "preview": "/tmp/fig_page5_1.png" }, { "page": 6, "description": "性能对比柱状图，显示新算法在并发请求处理上比传统方案提升40%...", "preview": "/tmp/fig_page6_1.png" } ] }

6. 开发过程中的经验教训

6.1 精度优化技巧

最初版本存在两个主要问题：

误将页眉装饰元素识别为图表
对组合图表的描述不完整

通过以下改进显著提升了质量：

添加最小面积过滤（忽略小于200px²的区域）

为Phi-3-vision设计专用提示词模板：

你是一个技术文档专家，请从以下维度描述该图表： 1. 图表类型（架构图/流程图/柱状图等） 2. 主要组成部分及其关系 3. 图表传达的核心技术观点 使用专业但简洁的技术语言

6.2 性能考量

处理20页的PDF平均耗时约2分钟，主要瓶颈在：

图像渲染和编码（占时60%）
模型推理（占时35%）

优化方向包括：

实现异步批量处理
添加本地缓存机制
对简单图表使用轻量级模型

7. 技能扩展可能性

这个基础版本还可以进一步扩展：

表格提取：适配PDF中的表格数据结构
多文档批处理：支持整个目录的自动扫描
版本对比：识别不同版本文档间的图表差异
知识图谱构建：将提取的信息存入图数据库

目前最让我惊喜的是Phi-3-vision对技术图表的理解能力——它甚至能指出架构图中潜在的单点故障问题。这种深度理解让自动化文档处理真正产生了知识价值，而不仅仅是格式转换。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

OpenClaw多模态技能开发：为Phi-3-vision-128k-instruct增加PDF图表提取功能