Qwen-VL 系列模型是多模态领域的 SOTA(顶尖)模型,在项目选型中常常被优先考虑。然而最近在做图片相似场景验证时,我却意外发现它不如 CLIP 和 DINOv2 等参数更小的视觉模型。这个结果刷新了我对模型的认知。
一、背景
最近在做影视内容的项目,有个任务经过拆解后,得到一个子问题:如何判断两张图片(或两个视频帧)在视觉上是相似的,或者说包含相似内容?
这件事并不复杂:把两张图片做 embedding 放到向量空间,看看相似度是否超过某个阈值就行了。
带着这个想法,我开始找合适的模型。
二、模型选型
我选了三个代表性的模型。最令我期待的当然是 SOTA 模型 Qwen3-VL-Embedding——毕竟它参数量最大,而且是 2026 年 1 月刚发布的论文,按理说效果应该最好。
模型 | 参数量 | 定位 | 擅长领域 |
CLIP (ViT-B/16) | 约 1.5 亿 | 图文匹配标杆 | 文本搜图、零样本分类 |
DINOv2 (ViT-g/14) | 约 11 亿 | 纯视觉自监督模型 | 图像分类、实例检索、深度估计 |
Qwen3-VL-Embedding (8B) | 约 80 亿 | 多模态统一检索模型 | 文本搜视频、视觉文档检索、视频问答 |
我设计了一个实验来验证它们的能力。
三、实验过程
我选择了《亮剑》中的 5 个片段作为验证数据:
Query视频:李云龙“开炮”片段
正例视频:同一个“开炮”片段(不同剪辑版本)
反例视频:亮剑中的其他战斗片段
所有视频分别按 1 秒抽 1 帧,然后使用上述三个模型分别计算 embedding 并存储。
接着,将 query 的每一帧与正例、反例的每一帧两两计算相似度。设定一个相似度阈值(比如 0.5),统计超过阈值的帧对数量。正例的相似帧数越多、反例的相似帧数越少,说明模型在识别相似画面方面越强
四、实验结果
结果让我非常意外。如下图所示,CLIP 和 DINOv2 两个模型在不同相似度阈值下,正例的匹配比例都明显高于负例。而Qwen-VL-Embedding-8B 的表现完全相反——正例的匹配比例还不如负例。
图1:不同阈值下匹配比例(正例 vs 负例均值)
再看正负例区分度(gap = 正例匹配率 - 最强负例匹配率)。CLIP 和 DINOv2 的 gap 始终为正,而 Qwen 的 gap 为负,且随着阈值升高差距越大。
图2:正负例区分度(gap)
为了搞清楚原因,我进一步绘制了帧级相似度热力图。纵坐标是 query 帧,横坐标是正例的帧,颜色越深表示相似度越高。
CLIP 和 DINOv2 的区分度比较高 —— query和正例中相似的帧为绿色,不相似则是红色。
Qwen 的热力图区分度则比较低——很多帧与另一个视频的所有帧都相似,没法正确识别相似的帧。
图3:帧级相似度热力图
从实际图片中捞两个 case 感受一下:
Query 第 3 帧 vs Positive 第 52 帧:这两帧画面内容接近(对应热力图的右上角位置)。CLIP 和 DINOv2 准确识别出了高相似度,但 Qwen 的相似度不明显。
Query 第 14 帧 vs Positive 最后一帧:同样是视觉相似的对,CLIP 和 DINOv2 认为相似,Qwen 表现平平。
为什么参数量最大的 Qwen,反而表现最差?
五、原理解析
要回答这个问题,需要仔细读一下 Qwen-VL-Embedding 的论文 《Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking》
5.1 Qwen-VL-Embedding 的设计初衷
Qwen-VL-Embedding 的核心设计目标并非优化纯视觉相似度判别任务,而是构建一个统一的多模态检索框架。
根据论文描述,该模型需要同时支持文本、图像、视频、视觉文档四种模态,并覆盖图像检索、视频检索、视觉文档检索、视频分类、视频问答、时刻检索等 9 个元任务、78 个评测数据集。这种多任务、多模态的统一架构要求模型在一个共享的嵌入空间中同时满足多种异质的相似性约束。
qwen模型的表征能力需要在不同的任务之间进行折中与权衡。当优化目标集包含“图文匹配”“视频时序定位”“文档图表理解”等差异性较大的子任务时,模型的最优嵌入空间必然是一个多目标妥协的解,而非针对某个单一任务(如纯视觉帧相似度)的极值解。因此,Qwen 在纯图片相似度任务上表现不突出,是其设计目标的直接结果,而非性能缺陷。
5.2 训练数据:什么都有,就是没有“纯图片相似度”
Qwen-VL-Embedding 的训练数据主要包括以下部分:
图像任务数据:图像分类、视觉问答、图像检索等
视频任务数据:视频分类、视频问答、视频检索、时刻检索
视觉文档数据:用于训练模型理解图表、PDF 页面、幻灯片等复杂视觉布局。
值得注意的是,这些数据中几乎没有专门用于“纯视觉帧相似度判别”的样本。数据构造的核心逻辑是语义对齐——即要求模型将语义相关的图文/视频/文档对映射到相近的向量位置,而非学习像素级的视觉差异。这种数据偏置决定了 Qwen 的嵌入空间天然更适合跨模态语义匹配,而非细粒度的视觉相似度计算。
5.3 训练过程:三阶段 + 蒸馏 + 融合,追求“平均分最高”
Qwen 的训练不是一步到位的,而是分三个阶段:
阶段 1:对比预训练
用大规模合成数据做对比学习(InfoNCE loss),让模型学会基础的图文对齐。
产出:s0(基础模型)
阶段 2:多任务有监督微调 + 训练 Reranker
用高质量公开数据 + 内部数据,对分类、问答、检索等任务分别做定制化的对比学习。
同时,单独训练一个 Qwen3-VL-Reranker(交叉编码器),专门做“查询-文档”对的相关性打分(二分类损失),精度高但计算慢。
产出:s1(擅长分类/问答的 embedding)+ Reranker(精排专家)
阶段 3:蒸馏 + 模型融合
用 Reranker 对一批高质量数据打出精细的相关性分数,然后用这些“软标签”去训练 embedding 模型(蒸馏),让 embedding 学到 Reranker 的检索能力。
蒸馏后得到 s2(检索能力极强,但分类/问答可能下降)。
最后把 s1 和 s2 进行模型融合,得到一个在所有任务上都表现不错的 s3(最终模型)。
这套流程的最终结果是:模型在各个任务上的平均分很高——MMEB-V2 拿了第一(77.8 分)。但代价是,它在任何一个单项上都不太可能做到极致。
5.4 总结:Qwen 是一个“通才”,而不是“专才”
CLIP 和 DINOv2 的训练目标单一:CLIP 专注于图文匹配,DINOv2 专注于纯视觉特征学习。它们的向量空间可以针对“两张图片是否相似”这个任务做极致优化。
Qwen 的训练目标多元:它要同时满足几十个任务的需求。它的向量空间是一个“折中”的空间,在各种任务之间取平衡。因此,在“纯图片相似度”这个单项上,它打不过专攻该任务的模型,是完全符合预期的。
这不是 Qwen“不行”,而是它本来就不是为这个任务设计的。
六、Qwen 模型擅长什么?
我认为 Qwen 模型最适合多模态内容的 RAG。把图片、视频、文本、PDF 等混合数据交给 Qwen 做 embedding,存入向量库。用户查询时,先用 Qwen-VL-Embedding 快速召回 Top-K 候选。再用 Qwen-VL-Reranker 对候选进行精细重排。最后交给大模型生成答案。这套流程能充分发挥 Qwen“跨模态统一检索”的优势。
另外,如果你想用 Qwen-VL-Embedding 解决某个具体任务,最好做微调,让它更精通这个垂直场景。
七、认知
1、“参数量越大越好”是个伪命题。 选模型看的不是参数量,而是模型的设计目标和你的任务是否匹配。
2、Attention is all you need。 这句话不仅开启了 Transformer 时代,也颇具哲理。像 Qwen-VL-Embedding 这种多目标训练,本质上就是在折中。当不完全同向的训练目标被放到一起时,我们只能得到一个各方面都“还行”的通才,而不是专注于某个方向的专才