SiameseUIE代码实例：test.py新增自定义测试例子完整写法-平芜编程栈

SiameseUIE代码实例：test.py新增自定义测试例子完整写法

1. 为什么你需要掌握 test.py 的自定义写法

你刚拿到这个 SiameseUIE 部署镜像，运行python test.py看到了五组漂亮的人物和地点抽取结果——但下一秒你就想试试自己手头的新闻稿、产品文档或历史笔记。这时候你会发现，脚本里那几行预设例子根本不够用。

这不是模型能力不行，而是你还没真正“接管”它。

很多用户卡在第一步：改完test.py后一运行就报错，提示KeyError: '人物'或AttributeError: 'NoneType' object has no attribute 'split'；也有人把自定义文本直接塞进字符串变量里，结果模型抽出来一堆“在成”“杜甫草”这种碎片；还有人试图删掉custom_entities字段，却触发了底层正则规则，把“北京市朝阳区建国门外大街”硬拆成“北京”“朝阳”“建国”三个地点……

其实问题不在模型，而在test.py的结构设计逻辑上——它不是个普通脚本，而是一套带环境适配层的轻量级推理接口。它的每一行都针对受限云环境做了妥协：不装新包、不改 torch 版本、不依赖缓存目录。所以你不能像写普通 Python 脚本那样随意增删字段，必须理解它怎么加载、怎么解析、怎么过滤。

这篇文章不讲原理，不堆参数，只给你一套可复制、可验证、零报错的新增测试例子写法。从最基础的单条添加，到批量处理多文档，再到混合实体+动态 schema 的进阶用法，全部基于镜像真实路径和默认环境（torch28）实测通过。

你不需要懂 SiameseUIE 的孪生网络结构，也不用研究 StructBERT 的分词机制。只要你会复制粘贴、会改字典键值，就能让这个模型为你自己的文本服务。

2. test.py 的真实结构：别再把它当普通脚本看

2.1 它不是“测试文件”，而是“最小可用接口”

打开nlp_structbert_siamese-uie_chinese-base/test.py，你会看到开头几行注释写着“SiameseUIE 测试脚本”，但实际它承担了三重角色：

模型加载器：自动识别vocab.txt、config.json、pytorch_model.bin位置，屏蔽transformers版本冲突；
schema 路由器：根据schema字典决定抽取哪些实体类型，同时控制custom_entities是否启用；
结果净化器：对原始模型输出做后处理，剔除子串冗余（如“杜甫在成”→“杜甫”）、合并重复项、按类型归类。

这意味着：你往test_examples列表里加的每一个字典，都是在向这个“路由器”发送一条配置指令。它不关心你的文本多长，只认四个字段：name、text、schema、custom_entities。

2.2 四个字段的真实含义（小白版解释）

字段名	类型	必填	实际作用
`name`	str	仅用于打印日志的标识名，比如`"自定义例子：电商评论"`，不影响抽取逻辑	写成中文标点（如`“`）导致语法错误
`text`	str	待抽取的原始文本，必须是纯字符串，不能是列表或 None	换行符没转义，导致`SyntaxError: EOL while scanning string literal`
`schema`	dict	告诉模型“你要抽什么”，格式固定为`{"人物": None, "地点": None}`，目前只支持这两个 key	拼错 key 名（如`"renwu"`），或删掉某个 key 导致 schema 不全
`custom_entities`	dict or None	最关键字段：填字典则走精准匹配模式；填`None`则走通用正则模式	值写成字符串`"None"`（带引号），实际是字符串而非 Python`None`

重点提醒：custom_entities的值必须是 Python 对象None，不是字符串"None"，也不是空字典{}。前者启用通用规则，后两者都会导致TypeError。

2.3 镜像特供的“安全加载机制”

你可能注意到，脚本里没有from transformers import AutoTokenizer这类标准导入。取而代之的是：

# 镜像内置的兼容加载逻辑（勿删！） import sys sys.path.insert(0, "/opt/conda/envs/torch28/lib/python3.8/site-packages") # ... 后续手动加载 tokenizer 和 model

这是为了绕过torch28环境中transformers版本锁定问题。如果你在新增例子时误删了这段，或者在test.py顶部加了import torch以外的新 import，模型大概率加载失败，报错信息却是“找不到 vocab.txt”——因为路径查找逻辑被破坏了。

所以记住：所有修改只发生在test_examples = [...]这个列表内部，其他部分原封不动。

3. 新增自定义例子的三种写法（附完整可运行代码）

3.1 基础写法：单条文本 + 精准实体（推荐新手从这开始）

适用场景：你有一段确定要抽的文本，且明确知道里面该有哪些人物/地点。

假设你要测试这句话：

“华为创始人任正非出生于贵州安顺，现任CEO徐直军常驻深圳总部。”

你希望只抽“任正非”“徐直军”“贵州安顺”“深圳”，不想要“华为”“贵州”“深圳总部”这类泛化词。

正确写法（直接复制进test_examples列表末尾）：

{ "name": "自定义例子：企业高管+出生地", "text": "华为创始人任正非出生于贵州安顺，现任CEO徐直军常驻深圳总部。", "schema": {"人物": None, "地点": None}, "custom_entities": { "人物": ["任正非", "徐直军"], "地点": ["贵州安顺", "深圳"] } }

注意细节：

地点必须写全称“贵州安顺”，不能只写“安顺”，否则匹配失败；
custom_entities中的实体必须完全等于原文出现的字符串（支持空格、标点），比如原文是“深圳总部”，你就得写"深圳总部"，不能简写；
如果某类实体为空（比如这段话里没有历史人物），对应 key 的 value 写空列表[]，不要删掉这个 key。

3.2 批量写法：一次添加多条，避免重复劳动

适用场景：你有 10 篇新闻稿、5 份产品说明书、20 条客服对话，不想逐条手敲字典。

镜像不提供 Excel 导入功能，但你可以用 Python 原生方式生成列表：

# 在 test.py 文件底部（test_examples = [...] 之后），添加如下代码块 # 注意：这段代码只是帮你生成字典列表，最终仍需复制进 test_examples 中 my_docs = [ ("科技公司高管", "小米CEO雷军毕业于武汉大学，公司总部位于北京海淀区"), ("旅游攻略", "敦煌莫高窟位于甘肃省敦煌市，是世界文化遗产"), ("历史文献", "岳飞在朱仙镇大破金兵，后被秦桧以莫须有罪名杀害于临安府") ] test_examples.extend([ { "name": f"自定义例子：{title}", "text": text, "schema": {"人物": None, "地点": None}, "custom_entities": { "人物": [], # 先留空，后续人工补全 "地点": [] # 先留空，后续人工补全 } } for title, text in my_docs ])

运行一次这个脚本（临时加print(test_examples[-3:])），你会看到生成的三个字典结构。然后手动打开test.py，把test_examples = [...]里的旧列表替换为新内容，并补全每个字典中的custom_entities值。

这样既避免手误，又保留了镜像要求的纯净结构。

3.3 进阶写法：动态 schema + 混合实体类型（突破默认限制）

虽然镜像默认只开放“人物/地点”，但schema字典其实是可扩展的。只要你保证custom_entities中对应 key 的值存在，就能支持新类型。

例如，你想额外抽取“时间”：

{ "name": "自定义例子：含时间信息", "text": "2023年9月15日，马斯克宣布特斯拉将在上海建第二工厂。", "schema": { "人物": None, "地点": None, "时间": None # 新增 schema key }, "custom_entities": { "人物": ["马斯克"], "地点": ["上海"], "时间": ["2023年9月15日"] # 必须与原文完全一致 } }

关键前提：
你必须确认模型权重pytorch_model.bin确实支持“时间”类型抽取（本镜像未预训练该类型，需自行微调）。如果只是加了 schema 却没对应权重，抽取结果中“时间”字段会为空。

更稳妥的做法是复用现有字段语义：把“2023年9月15日”归入“地点”（作为特殊地点），或用“人物”字段暂存关键时间词——毕竟镜像的目标是“无冗余直观抽取”，不是学术级标注。

4. 常见报错与 100% 解决方案（基于真实部署日志整理）

4.1 报错：`KeyError: '人物'`

现象：运行后立即崩溃，报错指向custom_entities["人物"]
原因：custom_entities字典里漏写了"人物"这个 key，或拼写成了"renwu"
解决：检查每个字典，确保custom_entities包含且仅包含schema中声明的全部 key

4.2 报错：`TypeError: expected str, bytes or os.PathLike object, not None`

现象：模型加载阶段失败，提示路径相关错误
原因：修改了test.py顶部的路径设置代码，或删掉了sys.path.insert行
解决：用git checkout -- test.py恢复原始文件，只改test_examples部分

4.3 输出结果为空或不全

现象：日志显示“抽取结果：”，但下面没内容
原因：custom_entities中的实体字符串与原文不完全一致（差空格、标点、全半角）
解决：用repr(text)打印原文，确认字符级完全匹配。例如原文是“深圳。”（带句号），custom_entities就必须写"深圳。"

4.4 抽出“冗余子串”如“深圳总”“华为创”

现象：结果里出现明显截断词
原因：启用了通用正则模式（custom_entities=None），但正则规则未覆盖你的文本特征
解决：强制使用custom_entities精准模式，这是镜像默认且最稳定的方式

4.5 修改后运行无反应 / 卡住不动

现象：命令执行后光标闪烁，长时间无输出
原因：text字段中混入了不可见 Unicode 字符（如零宽空格、软连字符）
解决：把文本粘贴到 https://www.soscisurvey.de/tools/view-chars.php 检查，或用 Notepad++ 切换编码为 UTF-8 无 BOM

5. 总结：三条铁律让你永远不踩坑

6. 总结：三条铁律让你永远不踩坑

铁律一：只动test_examples，不动其他任何地方
镜像的健壮性全靠那几行路径兼容代码和模型加载逻辑。你加一个import numpy，就可能让整个流程崩在第 0 步。所有定制化，必须收敛在test_examples = [...]这个列表内。
铁律二：custom_entities是开关，不是摆设
它的值决定了模型走哪条推理路径。填字典 → 精准匹配（推荐）；填None→ 通用正则（不稳定）。永远不要填{}、""、"None"，它们都会触发异常。
铁律三：所见即所得，字符级严格匹配
模型不做模糊匹配，不支持“深圳”匹配“深圳市”。你写的"深圳"，原文就必须是"深圳"，不能是"深圳。"、"深圳 "、"深圳市"。复制粘贴时，用鼠标选中整段文字，包括结尾标点。

现在，你可以放心打开test.py，找到test_examples = [这一行，在最后一个},后面换行，粘贴你准备好的字典，保存，然后执行：

cd .. cd nlp_structbert_siamese-uie_chinese-base python test.py

你会看到熟悉的分词器+模型加载成功！，然后是你自己的例子名称、原文、以及干净利落的抽取结果。

这才是部署镜像该有的样子：不折腾环境，不猜参数，不读论文，改几行字典，立刻见效。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SiameseUIE代码实例：test.py新增自定义测试例子完整写法