引言:多模态评测的“无冕之王”与它的裂痕
2021年1月,OpenAI发布CLIP模型,用4亿个图文对训练出的双塔编码器在零样本ImageNet分类上达到76.2%的准确率,震惊了整个计算机视觉界。随之诞生的CLIP Score——这个基于余弦相似度的轻量级指标,迅速成为多模态评测的“默认配置”,在文生图、图生文、跨模态检索等任务中无处不在。
但2026年的今天,情况已经大不相同。
根据2026奇点智能技术大会上MIT、DeepMind与OpenMMLab联合评测团队公开的系统性回溯测试数据,以CLIP-ViT/L-14为基线,其零样本图像分类准确率在ImageNet-1K上仍达82.4%;而2025年发布的旗舰多模态模型Omnivore-3B,在相同协议下仅取得79.1%,且在细粒度视觉推理任务中错误率上升47%。更令人担忧的是,跨模态对齐漂移导致文本嵌入与图像嵌入的余弦相似度分布方差扩大了2.3倍。
CLIP Score正在“失效”——但这并不是说它变得无用了,而是我们必须重新理解它的边界、审视它的缺陷、并拥抱新一代评测工具。
本文将从CLIP Score的核心原理出发,深度剖析其在图生文/文生图评测中的实战应用、CLIP家族模型的最新性能对比、主流评测基准的演化、安全风险与偏见问题,以及企业级部署的最佳实践,最后给出2026年多模态评测体系的趋势判断。