CLIP模型学习记录-平芜编程栈

1. 原理

1.1 简介

1. CLIP（全称是Contrastive Language-Image Pre-training）是由 OpenAI 在 2021 年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练，从而学会理解图像内容，并能将这些内容与相应的自然语言描述相匹配。CLIP 的核心思想是利用对比学习，这是一种无监督或弱监督的学习方法，通过最小化正样本之间的距离与最大化负样本之间的距离来学习表示，使得预训练一个能够同时理解图像和文本的模型。

原论文地址：https://arxiv.org/pdf/2103.00020

2. 方法概述图：

1.2 模型训练

1. 如上面图，左半部分是 CLIP 模型的对比预训练架构，通过对数据集中 N 个图像-文本对进行对比学习，使得模型能够理解文本和图像的语义关联关系。（4 亿个图文对）

2. 在预训练阶段，CLIP 模型采用了双流架构，分别处理图像和文本数据：图像流通过 ViT 编码器提取视觉特征，文本流通过 Transformer 编码器处理语言信息，两个流的输出在嵌入空间中进行对比学习，以实现图像和文本的语义对齐。

3. 对比学习是 CLIP 模型的核心，它通过比较正样本（匹配的图像-文本对，即图中对角线上N NN个匹配的图像-文本对）和负样本（不匹配的对，即N 2 − N N^2-NN2−N个没有匹配的图像-文本对）来训练模型。这种学习策略使得模型能够学习到图像和文本之间的复杂关系，而不仅仅是简单的特征对应。CLIP 的对比学习框架提高了模型对视觉和语言数据的泛化能力。

4. 对比预训练的伪代码如下：

# image_encoder - 图像编码器（ResNet 或 Vision Transformer）# text_encoder - 文本编码器（CBOW 或 Text Transformer）# I[n, h, w, c] - 对齐图像的迷你批次（批大小 n，高 h，宽 w，通道数 c）# T[n, l] - 对齐文本的迷你批次（批大小 n，序列长度 l）# W_i[d_i, d_e] - 图像到嵌入向量的可学习投影矩阵# W_t[d_t, d_e] - 文本到嵌入向量的可学习投影矩阵# t - 可学习的温度参数# 提取各模态的特征表示I_f=image_encoder(I)# 图像特征 [n, d_i]T_f=text_encoder(T)# 文本特征 [n, d_t]# 联合多模态嵌入 [n, d_e]I_e=l2_normalize(np.dot(I_f,W_i),axis=1)# 归一化图像嵌入T_e=l2_normalize(np.dot(T_f,W_t),axis=1)# 归一化文本嵌入# 缩放后的成对余弦相似度矩阵 [n, n]logits=np.dot(I_e,T_e.T)*np.exp(t)# 相似度得分矩阵# 对称损失函数labels=np.arange(n)# 对角线标签（理想匹配索引）loss_i=cross_entropy_loss(logits,labels,axis=0)# 图像到文本的交叉熵损失loss_t=cross_entropy_loss(logits,labels,axis=1)# 文本到图像的交叉熵损失loss=(loss_i+loss_t)/2# 对称对比损失

1.3 模型推理

1. 如上图右半部分所示，当 CLIP 模型预训练完成后， CLIP 转换为零样本分类器。首先和训练过程一样，也是需要图像编码器将给定的图像转换为图像特征，以及文本编码器将待选文本转换为文本特征。在推理中使用一个小方法，将数据集的所有类转换为标题，例如 “a photo of a {subject}”，将给定的类别分别填入subject，并预测 CLIP 估计的标题类与给定图像的最佳配对。

2. 一些结果示例：