GLM-OCR入门指南：Prompt工程技巧——Text/Table/Formula三类指令差异解析-平芜编程栈

GLM-OCR入门指南：Prompt工程技巧——Text/Table/Formula三类指令差异解析

你是不是遇到过这种情况：上传一张图片给OCR工具，明明图片里有文字、表格和公式，但识别出来的结果却乱七八糟，文字和表格混在一起，公式更是变成了一堆乱码？

这通常不是模型能力不行，而是你用错了“指令”。

GLM-OCR作为一款强大的多模态OCR模型，它最大的特点就是能听懂你的“话”——通过不同的Prompt指令，告诉它你想识别什么。今天，我就来带你彻底搞懂GLM-OCR里最核心的三个指令：Text Recognition:、Table Recognition:和Formula Recognition:。

看完这篇指南，你就能像指挥专家一样，让GLM-OCR精准地识别出图片里的任何内容。

1. 为什么指令这么重要？

在深入讲解三个指令之前，我们先要明白一个核心概念：GLM-OCR是一个“任务驱动”的模型。

这就像你请了三位专家来帮你处理文档：

文字专家：专门负责把图片里的文字转成可编辑的文本。
表格专家：专门负责识别表格的结构和内容，还原成标准的表格格式。
公式专家：专门负责识别复杂的数学公式，转换成LaTeX或MathML代码。

如果你不告诉GLM-OCR请的是哪位专家，它可能会让“文字专家”去处理表格，结果就是表格结构全丢，只剩下一堆杂乱无章的文本。

这就是Prompt指令的价值：它精准地告诉模型“现在要执行什么任务”，让模型切换到对应的“专家模式”，从而得到最好的识别效果。

2. 文本识别指令：`Text Recognition:`

这是最基础、最常用的指令，专门用于识别图片中的普通文字内容。

2.1 什么时候用？

当你需要提取图片中的段落文字、标题、列表、说明文字等纯文本内容时，就应该使用这个指令。

适用场景举例：

扫描的文档、书籍页面
截图中的聊天记录、文章段落
海报、传单上的文字说明
证件上的姓名、地址等信息

2.2 实际效果展示

假设我们有一张包含混合内容的图片，如果用Text Recognition:指令：

from gradio_client import Client client = Client("http://localhost:7860") # 对混合内容图片使用文本识别指令 result = client.predict( image_path="mixed_content.png", prompt="Text Recognition:", # 明确告诉模型：只识别文本 api_name="/predict" ) print("文本识别结果：") print(result)

识别效果特点：

专注文字：模型会忽略表格线和公式符号，只提取连贯的文字内容
保持顺序：按照阅读顺序（通常从左到右、从上到下）输出文本
忽略结构：不会保留表格的单元格结构，公式也不会被特殊处理

举个例子：如果图片里有一个表格，第一行是“姓名 | 年龄 | 城市”，下面有几行数据。使用Text Recognition:后，你可能得到这样的输出：

姓名 年龄 城市 张三 25 北京 李四 30 上海

表格的竖线没了，但文字内容都提取出来了。

2.3 使用技巧

对于纯文字图片：直接使用Text Recognition:即可，这是默认的最佳选择。
对于文字密集的图片：如果图片文字很多，识别结果可能会很长，建议分段处理或检查输出是否完整。
注意排版文字：对于分栏排版的文档，识别时可能会按栏输出，而不是整体阅读顺序。

3. 表格识别指令：`Table Recognition:`

这是GLM-OCR的杀手级功能之一，能智能识别表格的结构和内容。

3.1 什么时候用？

当图片中包含表格时，一定要用这个指令！无论是简单的双列表格，还是复杂的合并单元格表格。

适用场景举例：

财务报表、数据统计表
产品规格参数表
课程表、日程安排表
研究论文中的实验数据表格

3.2 实际效果展示

继续用刚才的混合内容图片，这次我们用表格识别指令：

# 同样的图片，使用表格识别指令 result = client.predict( image_path="mixed_content.png", prompt="Table Recognition:", # 明确告诉模型：识别表格 api_name="/predict" ) print("表格识别结果：") print(result)

识别效果特点：

还原结构：不仅提取文字，还还原表格的行列结构
标记格式：通常会用Markdown表格格式或HTML表格格式输出
处理合并单元格：能识别跨行、跨列的合并单元格
忽略非表格文字：表格外的文字可能不会被提取

输出示例：

| 姓名 | 年龄 | 城市 | |------|------|------| | 张三 | 25 | 北京 | | 李四 | 30 | 上海 |

看到了吗？这次输出是标准的Markdown表格格式，完全保留了表格的结构。

3.3 使用技巧

表格要清晰：确保表格的边框线清晰可见，模糊的线条可能影响结构识别。
复杂表格处理：对于特别复杂的表格（多层表头、嵌套表格），识别可能不完美，可以尝试截图时只包含表格主体部分。
验证结构：识别后一定要检查表格结构是否正确，特别是合并单元格的位置。
与文本指令对比：如果你不确定图片里的是否是表格，可以先用Text Recognition:试试，如果结果混乱，再换Table Recognition:。

4. 公式识别指令：`Formula Recognition:`

这是技术文档、学术论文处理中的神器，专门识别数学公式、化学方程式等。

4.1 什么时候用？

当图片中包含数学公式、化学式、物理方程式等专业符号时使用。

适用场景举例：

学术论文中的数学公式
教科书中的方程式
技术文档中的专业符号
科学报告中的化学式

4.2 实际效果展示

如果我们的图片里有一个公式，比如“E = mc²”，用公式识别指令：

# 对包含公式的图片使用公式识别指令 result = client.predict( image_path="formula_image.png", prompt="Formula Recognition:", # 明确告诉模型：识别公式 api_name="/predict" ) print("公式识别结果：") print(result)

识别效果特点：

专业格式输出：通常输出LaTeX格式，这是学术界的标准公式表示法
符号准确：能识别各种数学符号、希腊字母、上下标等
结构保持：保持公式的二维结构，如分式、根号、矩阵等
纯公式聚焦：只识别公式部分，忽略周围的文字

输出示例：

E = mc^{2}

或者更复杂的公式：

\int_{a}^{b} f(x) \, dx = F(b) - F(a)

4.3 使用技巧

公式要清晰：确保公式中的符号清晰可辨，手写公式可能识别率较低。
LaTeX知识有帮助：了解基本的LaTeX语法，能更好地理解和修改识别结果。
复杂公式分段：对于特别复杂的公式，如果识别不完整，可以尝试只截图公式部分，而不是整页文档。
检查特殊符号：识别后检查特殊符号是否正确，如积分号、求和号、希腊字母等。

5. 实战：如何为混合内容图片选择指令？

现在你知道了三个指令的用法，但实际问题往往是：一张图片里同时有文字、表格和公式，怎么办？

5.1 策略一：分区域截图处理

这是最可靠的方法。如果文档布局清晰，你可以：

用截图工具分别截取文字部分、表格部分、公式部分
对每个截图使用对应的指令
最后把结果拼接到一起

优点：识别准确率最高缺点：操作稍麻烦，需要人工分割

5.2 策略二：按主内容选择指令

如果不想分割图片，可以根据图片的主要内容选择指令：

文字为主，夹杂少量表格/公式：用Text Recognition:，然后手动修正表格和公式部分
表格为主：用Table Recognition:，表格外的文字可能会丢失，但表格结构完美
公式为主：用Formula Recognition:，只得到公式的LaTeX代码

5.3 策略三：多次识别对比

如果你不确定，可以尝试：

# 对同一张图片尝试三种指令 image_path = "mixed_content.png" prompts = ["Text Recognition:", "Table Recognition:", "Formula Recognition:"] results = {} for prompt in prompts: result = client.predict( image_path=image_path, prompt=prompt, api_name="/predict" ) results[prompt] = result print(f"\n=== {prompt} ===") print(result[:500]) # 只打印前500字符预览

然后根据预览结果，选择最合适的那个，或者手动合并不同结果中的正确部分。

6. 常见问题与解决方案

6.1 识别结果不理想怎么办？

问题：用了正确的指令，但识别结果还是有问题。解决方案：

检查图片质量：确保图片清晰、无反光、无阴影
调整图片尺寸：过小或过大的图片都可能影响识别，尝试调整到正常阅读大小
尝试不同指令：有时候模型对内容类型的判断可能和人类不同，换一个指令试试
预处理图片：可以先用图片编辑工具调整对比度、去除噪点

6.2 如何批量处理图片？

如果你有很多图片需要处理，可以写一个简单的脚本：

import os from gradio_client import Client client = Client("http://localhost:7860") # 图片文件夹 image_dir = "/path/to/your/images" output_dir = "/path/to/output" # 确保输出目录存在 os.makedirs(output_dir, exist_ok=True) # 处理所有图片 for filename in os.listdir(image_dir): if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.webp')): image_path = os.path.join(image_dir, filename) # 根据文件名或内容决定使用什么指令 # 这里假设所有图片都用文本识别，你可以根据需要修改 prompt = "Text Recognition:" try: result = client.predict( image_path=image_path, prompt=prompt, api_name="/predict" ) # 保存结果 output_path = os.path.join(output_dir, f"{os.path.splitext(filename)[0]}.txt") with open(output_path, 'w', encoding='utf-8') as f: f.write(result) print(f"已处理: {filename}") except Exception as e: print(f"处理 {filename} 时出错: {e}")

6.3 服务启动或调用失败怎么办？

如果你在启动GLM-OCR服务或调用API时遇到问题：

检查服务是否启动：

# 查看7860端口是否被占用 lsof -i :7860 # 如果端口被占用，可以停止服务后重新启动 cd /root/GLM-OCR ./start_vllm.sh

检查模型是否加载：首次启动需要1-2分钟加载模型，请耐心等待。
检查网络连接：确保你的Python脚本能访问到http://localhost:7860。

7. 总结

GLM-OCR的强大之处在于它的“专业化”设计——通过不同的Prompt指令，调用不同的识别专家。记住这三个黄金法则：

文字内容用Text Recognition:——当你只想提取文字时
表格内容用Table Recognition:——当你需要保留表格结构时
公式内容用Formula Recognition:——当你处理数学或科学公式时

选择正确的指令，就像给模型戴上了合适的“眼镜”，它能看得更清、识别更准。刚开始可能需要一些尝试，但一旦掌握了这个技巧，你就能高效处理各种复杂的文档识别任务。

最好的学习方式就是动手试试。找几张包含不同内容的图片，分别用三个指令试试看，亲自感受一下它们的差异。你会发现，原来文档识别可以这么智能、这么精准。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

GLM-OCR入门指南：Prompt工程技巧——Text/Table/Formula三类指令差异解析