Lychee-Rerank-MM应用案例：工业质检报告图→缺陷描述文本精准定位-平芜编程栈

Lychee-Rerank-MM应用案例：工业质检报告图→缺陷描述文本精准定位

1. 这不是普通检索，是“看图说话”的精准匹配

你有没有遇到过这样的场景：产线拍下一张电路板的高清缺陷图，旁边堆着几十份历史质检报告——每份报告里都混着文字描述、检测参数、甚至嵌入的小图。人工翻找最匹配的那条记录，平均要花7分钟；而用传统文本检索工具，输入“焊点虚焊+边缘发黑”，返回结果里却混着3条无关的PCB清洁流程文档。

Lychee-Rerank-MM 就是为解决这类“图文错位”问题而生的。它不靠关键词硬匹配，也不依赖OCR后丢进纯文本模型——而是真正理解“这张图在说什么”，再从一堆图文混合的质检档案中，把最贴切的那句缺陷描述精准揪出来。这不是搜索，是跨模态的“语义对焦”。

它的核心能力，藏在一个被很多人忽略的环节里：重排序（Reranking）。很多系统先用粗筛模型快速捞出前100条候选，但真正决定成败的，是这100条里哪一条该排第一。Lychee 做的就是这个“临门一脚”——用 Qwen2.5-VL 的多模态理解力，给每一对“缺陷图+文本描述”打一个0到1之间的相关性分数，误差小到能区分“虚焊”和“冷焊”这种毫米级差异。

更关键的是，它不需要你重新训练模型。你只要换一句指令，就能让同一个模型，在不同质检场景里切换角色：对PCB板，它专注焊点形态；对金属铸件，它盯紧气孔分布；对纺织品，它识别经纬线断痕。这种灵活性，让工厂不用为每条产线单独部署一套AI系统。

2. 工业现场实测：一张图，三秒锁定最匹配的缺陷描述

我们把 Lychee-Rerank-MM 部署在某汽车电子厂的质检终端上，真实测试它处理“工业质检报告图→缺陷描述文本”的能力。整个过程不碰代码，只用浏览器操作，连工程师助理都能上手。

2.1 场景还原：从模糊描述到精准定位

产线工人拍下一张SMT贴片后的AOI检测图：画面中央有个疑似虚焊的焊点，周围有轻微锡珠飞溅。他想快速查到历史上同类缺陷的处置方案——不是泛泛的“虚焊处理规范”，而是完全匹配这张图特征的具体描述，比如：“QFP24封装第12脚焊点润湿角＜30°，伴随0.15mm锡珠，建议调整回流焊峰值温度至235℃”。

传统做法是：

先手动标注图中缺陷类型（耗时1分钟）
再在知识库中输入“QFP24 虚焊锡珠”（可能漏掉“润湿角”等专业词）
翻到第5页才找到目标记录（耗时6分钟）

Lychee 的做法是：

直接上传这张AOI图（支持JPG/PNG，无需预处理）
在查询框输入一句自然语言：“这张图显示的焊点缺陷该怎么处理？”
点击排序，3秒后返回按相关性排序的10条历史报告片段

2.2 实测效果：为什么它比纯文本模型更懂产线语言

我们对比了三种方案在200个真实缺陷样本上的表现：

方案	Top-1准确率	平均响应时间	能否理解图中细节
Elasticsearch关键词检索	41.2%	0.8s	只认文字，图白传
Qwen2.5-VL直接问答	63.5%	8.2s	看得懂图，但无法排序多文档
Lychee-Rerank-MM	89.7%	2.4s	图文双路理解+精细打分

关键突破在于它的“指令感知”设计。当我们在查询中加入这句指令：
Given a defect image from industrial inspection, retrieve the most precise textual description of the defect and its recommended handling method

模型立刻切换到“工业质检专家”模式——它不再泛泛回答“这是什么缺陷”，而是专注在已有的质检报告池里，找出描述最细致、处置建议最具体的那一条。比如对同一张焊点图，它会优先返回含“润湿角＜30°”“峰值温度235℃”的记录，而非只有“存在虚焊”的笼统描述。

2.3 批量处理：一次上传，批量诊断

实际产线中，单次检测常产出多张图（正面/侧面/放大图）。Lychee 支持批量重排序模式，一次提交5张缺陷图+20条历史报告，它会为每张图生成独立的Top-5匹配列表。

我们测试了10组批量任务（每组平均8张图+35条报告），结果：

所有图的Top-1匹配准确率保持在87.3%~91.1%之间
总耗时仅14.6秒（平均单图1.8秒）
输出自动整理成Markdown表格，可直接复制进MES系统

| 缺陷图ID | 最匹配描述 | 相关性得分 | 处置建议来源 | |----------|------------|------------|--------------| | IMG-2024-08-01-001 | “BGA121封装第47列焊球存在空洞，直径＞0.08mm，建议X光复检” | 0.921 | 报告#QD-2023-11-22 | | IMG-2024-08-01-002 | “FPC连接器金手指氧化，表面呈浅褐色膜状，需等离子清洗” | 0.897 | 报告#QD-2024-03-15 |

这种结构化输出，让质量工程师能跳过阅读全文，直接抓取关键动作项。

3. 零代码落地：三步接入你的质检知识库

Lychee-Rerank-MM 的工业价值，不在于多炫酷的技术参数，而在于它能把前沿多模态能力，变成产线工人点点鼠标就能用的工具。部署全程无需写新代码，只需三步：

3.1 准备你的质检文档池

这不是传统意义上的“数据库”，而是一个纯文本文件夹。把所有历史质检报告、标准作业指导书（SOP）、设备维修日志，按以下规则整理：

每份文档存为独立TXT文件（如QD-2023-11-22.txt）
文件名尽量含关键信息（日期/编号/产品型号）
文本内保留原始格式：标题用##，要点用-，参数用**加粗**
无需OCR：如果报告本身是PDF，用系统自带的PDF转文本工具（如pdfplumber）提取即可

注意：Lychee 不要求你提前向量化文档。它在运行时实时计算图文相似度，所以文档池可以随时增删，无需重建索引。

3.2 启动服务：一行命令的事

按镜像说明，确保服务器满足条件：

GPU显存 ≥16GB（实测A10或RTX6000 Ada足够）
模型路径正确指向/root/ai-models/vec-ai/lychee-rerank-mm

启动只需执行：

cd /root/lychee-rerank-mm ./start.sh

30秒后，打开浏览器访问http://<服务器IP>:7860，你会看到简洁的Gradio界面——没有复杂配置项，只有三个核心区域：

指令框：粘贴适合你场景的指令（工业质检推荐用上文提到的那句）
查询区：拖入缺陷图，或输入文字描述
文档区：上传TXT文件，或直接粘贴多段文本

3.3 定制化调优：不用改模型，只调两处设置

多数工厂开箱即用，但若想进一步提升精度，只需调整两个参数（在Web界面右上角“高级设置”中）：

max_length：默认3200，针对长篇SOP报告可调至4000；若只匹配短缺陷描述，调至2500能提速18%
batch_size：默认4，显存充足时设为8，批量处理速度提升约1.7倍

我们实测发现：对汽车电子厂的典型文档（平均长度1200字符），将max_length设为2800 +batch_size设为6，能在保持91.2%准确率的同时，把单次查询耗时压到1.9秒。

4. 为什么工业场景特别需要这种“重排序”思维？

很多团队尝试过直接用多模态大模型做质检，却陷入两个误区：

误区一：把大模型当万能问答机
输入“这张图有什么问题？”，模型确实能回答，但答案常是泛泛而谈的“存在焊接缺陷”。而产线真正需要的，是从已有知识库中精准定位到某条具体处置方案——这正是重排序的价值：它不创造新知识，而是从确定集合中做最优选择。
误区二：追求端到端全自动
有人想让模型直接输出维修步骤。但工业决策必须可追溯：工程师需要知道“为什么选这条方案？”，而Lychee返回的不仅是结果，还有0.921这样的量化得分，以及可验证的原文出处。这种透明性，让AI建议更容易被老师傅接受。

Lychee 的设计哲学很务实：它承认工业知识是沉淀在历史文档里的，不试图推翻重来，而是用最先进的多模态理解力，帮人更快地找到那些早已存在的最佳实践。