工业质检也能用！中文图像识别在产线上的应用尝试-平芜编程栈

工业质检也能用！中文图像识别在产线上的应用尝试

1. 引子：当“看图识物”走进真实产线

你有没有见过这样的场景？
一条自动化产线上，工人反复举起零件对着摄像头拍照，再打开手机App比对标准图——不是为了发朋友圈，而是确认这个金属支架有没有划痕、那个塑料外壳是否缺料、标签印刷有没有偏移。

这不是科幻片，是很多中小制造企业每天的真实质检流程。
传统方式靠人眼+经验，效率低、易疲劳、标准难统一；上高端AOI设备？动辄几十万起步，还要配专业工程师维护。

而这次我们试用的「万物识别-中文-通用领域」镜像，来自阿里开源项目，不联网、不调云API、不依赖GPU，只用一台普通工控机就能跑起来。更关键的是：它输出的不是英文标签（比如n03670208或guitar），而是直接返回中文结果——“吉他”“螺丝孔”“喷漆不均”“边缘毛刺”。

这让我们第一次觉得：轻量级图像识别，真能踩进产线节奏里。

本文不讲模型结构、不堆参数指标，只聚焦一件事：
它在真实工业场景中，到底能不能用？怎么用才省事？哪些地方会卡壳？我们踩过的坑，你不用再踩。

2. 镜像初体验：三分钟跑通第一条识别流水线

2.1 环境准备：比想象中更简单

这个镜像预装了完整运行环境，你不需要装Python、不配CUDA、不下载模型权重——所有依赖都已固化在容器内。

只需两步：

启动容器后，进入终端执行：
```
conda activate py311wwts
```
运行自带的推理脚本：
```
python 推理.py
```

默认会读取同目录下的bailing.png图片（一张带中文标注的示例图），输出类似这样的结果：

检测到：螺丝孔 —— 置信度 0.92 检测到：表面光洁 —— 置信度 0.87 检测到：无划痕 —— 置信度 0.84

注意：这里的“螺丝孔”“表面光洁”不是人工写死的关键词，而是模型从图像中自主理解并用中文表达的语义结果——它没学过“螺丝孔”的定义，但通过海量通用图像学习到了这类结构的视觉模式，并映射为可读性高的中文短语。

2.2 把你的产线图片“喂”进去

想测自己的零件图？别急着改代码。推荐这个工作流：

在左侧文件浏览器中，点击上传按钮，把你的JPG/PNG图片拖进来（比如motor_housing_001.jpg）

执行命令复制到工作区：

cp 推理.py /root/workspace cp motor_housing_001.jpg /root/workspace

编辑/root/workspace/推理.py，找到这一行：

image_path = "bailing.png"

改成：

image_path = "motor_housing_001.jpg"

再运行：
```
cd /root/workspace python 推理.py
```

整个过程无需重启容器，5分钟内完成首次私有图片验证。

2.3 中文识别不是“翻译”，而是语义对齐

你可能会疑惑：ImageNet原版只有英文标签，这个镜像怎么做到输出中文的？

答案是：它在模型输出层之后，接了一套中文语义映射引擎。不是简单查表翻译（比如把bolt→“螺栓”），而是结合上下文、物体尺度、常见工业表述习惯，做了三层处理：

第一层：原始Top-5英文预测（如bolt,metal_part,fastener,screw,hardware）
第二层：聚类相似语义，合并为“紧固件类”
第三层：按工业场景常用说法，输出最贴切的中文短语——比如在电机外壳图中，优先返回“螺丝孔”而非“螺栓”

这也是为什么它在产线图上表现更稳：它理解的不是孤立物体，而是“这个东西在当前画面里大概率代表什么”。

3. 产线实测：我们试了这5类典型零件

我们选取了本地三家合作工厂提供的真实样本，在未做任何微调的前提下，直接用原镜像测试。结果不追求100%准确，而关注能否快速发现异常、是否需要人工二次判断、单次识别耗时是否可接受。

零件类型	典型问题	模型识别结果（Top-1）	是否触发告警建议	单图耗时（CPU）
电路板（PCB）	焊点虚焊、元件错位	“焊点异常”（置信度0.78）	建议人工复核	41ms
塑料外壳	表面缩水、飞边、色差	“表面不均”（0.83）、“边缘毛刺”（0.71）	可作为初筛标记	38ms
金属支架	划痕、变形、漏喷漆	“划痕明显”（0.91）、“结构变形”（0.65）	高置信度可直判不良	44ms
包装盒	印刷偏移、条码模糊、压痕	“印刷偏移”（0.86）、“条码不清”（0.79）	比人工目检更快定位	36ms
线束组件	端子松脱、胶套缺失、缠绕错误	“端子异常”（0.62）、“连接不全”（0.58）	置信度偏低，需加规则过滤	47ms

关键发现：

对宏观缺陷（变形、偏移、大面积色差）识别稳定，Top-1置信度普遍＞0.75
对微观细节（微小焊点、0.1mm级划痕）识别较弱，需搭配更高分辨率输入或专用模型
“端子松脱”类问题识别不准，不是模型能力问题，而是训练数据中缺乏足够线束特写样本——这提醒我们：通用模型≠万能模型，必须结合业务补短板

4. 落地技巧：让识别结果真正驱动产线动作

光有“识别出来”不够，关键是怎么用。我们在测试中沉淀出3个低成本、高实效的工程化方法：

4.1 置信度过滤 + 规则引擎：告别“假阳性”

模型会说“表面不均”，但实际可能是反光导致的误判。我们加了一层轻量规则：

# 示例：仅当“表面不均”+“反光区域＜画面10%”时才告警 if result["label"] == "表面不均" and glare_ratio < 0.1: trigger_alert()

实现方式很简单：用OpenCV先算出高亮区域占比，再和模型结果联合判断。整段代码不到10行，却把误报率从23%降到6%。

4.2 批量截图 + 自动归档：替代人工巡检

产线摄像头通常固定角度拍摄。我们写了个小脚本，每30秒截一张图，存入时间戳命名的文件夹：

while true; do ffmpeg -i rtsp://192.168.1.100/stream -vframes 1 -q:v 2 /data/capture/$(date +%Y%m%d_%H%M%S).jpg sleep 30 done

再用定时任务调用识别脚本，把结果写入CSV：

20240522_093015.jpg,表面光洁,0.87,OK 20240522_093045.jpg,划痕明显,0.91,NG

一线组长每天早上打开Excel，就能看到前日所有异常时段和位置——不用守在屏幕前盯监控。

4.3 中文结果直连MES：让质检数据“活”起来

很多工厂已有MES系统，但质检数据还是靠工人手填。我们用Python requests，把识别结果自动推送到MES接口：

requests.post("http://mes.local/api/quality", json={ "work_order": "WO20240522-001", "part_id": "MOTOR-HS-01", "defect_type": "划痕明显", "confidence": 0.91, "image_url": "/capture/20240522_093045.jpg" })

效果：质检数据实时入库，质量分析报表自动生成，再也不用月底手工汇总。

5. 边界与清醒认知：它不能做什么，比它能做什么更重要

用得越顺，越要清楚它的边界。以下是我们在两周实测中确认的“能力红线”：

❌不支持小目标密集检测
一张图上有20个相同螺丝，它能告诉你“存在螺丝”，但无法框出每个螺丝位置、也无法单独判断每个是否拧紧。需要YOLO类检测模型。
❌不支持多图关联推理
它看不出“这张图的A零件和那张图的B零件装配后是否匹配”。这是跨图像逻辑，超出单图分类范畴。
❌不支持动态缺陷学习
如果工厂新出现一种从未见过的“涂层气泡”缺陷，它无法通过几张新图就学会。需重新训练或接入few-shot学习模块。
❌对极端光照鲁棒性有限
强背光、频闪光源下，识别置信度下降明显。建议加装柔光罩，或在预处理中加入自适应直方图均衡。

这些不是缺点，而是通用模型的天然定位：它不是替代专业AOI的“全能选手”，而是降低AI使用门槛的“第一块垫脚石”。当你需要快速验证一个想法、覆盖80%常规缺陷、培训新人质检标准时，它刚刚好。

6. 总结：让AI从PPT走进工装裤口袋

回看这次尝试，最有价值的不是技术多炫，而是三个落地共识：

中文输出极大降低使用门槛
老师傅不用查词典，看一眼结果就知道问题在哪；质量主管写报告，直接复制中文结论，不用再翻译解释。
本地化部署消除了最大信任障碍
图片不出车间、数据不离工厂、识别不依赖网络——这对汽车零部件、医疗器械等强监管行业，是决定能否上线的关键。
“够用就好”的精度策略更可持续
不追求99.99%准确率，而是用75%高置信度结果做初筛，把20%疑难样本留给人工复判。整体质检效率提升3倍，人力成本下降40%。

下一步，我们计划做两件事：
一是用工厂真实不良图微调模型，专攻“端子松脱”等薄弱项；
二是把识别能力封装成Docker API服务，让PLC程序也能直接调用。

AI落地产线，从来不是一蹴而就的革命，而是一次次“能用→好用→离不开”的渐进渗透。