news 2026/2/14 2:23:20

多模态-4 CoCa

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态-4 CoCa

这篇文章介绍多模态模型-CoCa

Transformer基础理论介绍可以看:深度学习基础-5 注意力机制和Transformer

多模态基础知识点可以看:多模态-1 基础理论

ViT介绍可以看:计算机视觉Transformer-1 基础结构

CLIP介绍可以看:多模态-2 CLIP

CoCa原论文:《CoCa: Contrastive Captioners are Image-Text

Foundation Models》

一 模型结构

结合对比学习和图像文本内容生成任务,基于统一的Transformer架构构建了一个可以兼顾图像理解与内容生成的多模态模型-CoCa

模型结构如下:

输入是<图像,图像文本描述>对,利用图像编码器(Image Encoder)获取图像的特征表示,论文中使用的图像编码器是ViT,然后利用注意力池化层对图像编码器的特征表示输出进行特征注意力池化。

将Transformer的Decoder分为两部分,底层部分作为统一文本特征编码表示组件(Unimodal Text Decoder),高层部分作为多模态文本生成组件(Multimodal Text Decoder)。Unimodal Text Decoder对输入文本只进行单纯的“文本”模态理解,特征解码时不会考虑图像编码器的输出信息,而Multimodal Text Decoder会利用交叉注意力(cross attention)综合图像编码器的输出进行图像文本内容生成解码。计算Unimodal Text Decoder的输出和图像编码输出之间的对比损失,再计算Multimodal Text Decoder输出的交叉熵损失,训练整个CoCa。

Unimodal Text Decoder是从全局粗粒度语义视角的一种<图像,图像文本描述>语义理解,而Multimodal Text Decoder是局部细粒度语义角度的语义理解,二者关注的语义空间不同,所以利用注意力池化层对图像编码器的输出进行注意力池化,对图像编码器进行全局注意力池化,得到一个全局图像特征编码表示,和Unimodal Text Decoder的输出进行对比学习损失计算,对图像编码器进行局部注意力池化,得到多个图像的细粒度编码表示,论文中设置的是256个,这256个特征编码类似以往卷积神经网络输出的特征图,代表着图像不同角度的语义特征,利用这256个细粒度图像编码表示作为K、V,输入到Multimodal Text Decoder的cross attention中,辅助Multimodal Text Decoder进行图像文本内容生成解码。

二 训练过程

1.从训练数据集中获取一个batch的<图像,图像文本描述>训练数据

2.利用图像编码器对当前batch的所有图像进行编码表示

3.利用Unimodal Text Decoder对当前batch的所有图像文本描述进行编码表示

4.利用注意力池化层获取图像编码表示的全局粗粒度语义编码表示,和Unimodal Text Decoder的输出计算对比学习损失

5.利用注意力池化层获取图像编码表示的局部细粒度语义编码表示,作为K、V,输入到Multimodal Text Decoder的cross attention中,辅助Multimodal Text Decoder进行图像文本描述解码,计算图像文本描述解码的交叉熵损失

6.综合对比损失和文本内容解码损失,反向传播训练CoCa

三 细节问题

1 为什么CLIP在论文中说生成式的任务对于<图像-文本>语义对齐效果不好,而后期大部分的多模态模型都是基于文本生成式的任务进行图文模态特征对齐

2 为什么CoCa的对比学习中没有使用动量编码器

对比学习存在以下问题:

CoCa借助文本生成任务的辅助,没有使用动量编码器,但是效果也较好

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/11 23:34:53

Chandra OCR高清展示:PDF图像标题识别+绝对坐标输出,用于PDF重排版

Chandra OCR高清展示&#xff1a;PDF图像标题识别绝对坐标输出&#xff0c;用于PDF重排版 1. 开篇介绍 Chandra OCR是Datalab.to在2025年10月开源的一款革命性的"布局感知"OCR模型。不同于传统OCR仅能提取文字内容&#xff0c;Chandra能够完整保留文档的排版结构信…

作者头像 李华
网站建设 2026/2/9 1:37:31

万物识别-中文-通用领域实战优化:批量图片处理部署教程

万物识别-中文-通用领域实战优化&#xff1a;批量图片处理部署教程 你是不是也遇到过这样的问题&#xff1a;手头有几百张商品图、文档扫描件、教学素材或监控截图&#xff0c;想快速知道每张图里有什么&#xff1f;传统方法要么靠人工一张张看&#xff0c;耗时耗力&#xff1…

作者头像 李华
网站建设 2026/2/12 20:04:17

MedGemma X-Ray快速上手指南:Gradio镜像免配置部署详解

MedGemma X-Ray快速上手指南&#xff1a;Gradio镜像免配置部署详解 1. 医疗影像AI助手&#xff1a;MedGemma X-Ray简介 MedGemma X-Ray是一款基于前沿大模型技术开发的医疗影像智能分析平台。它能将人工智能的强大理解能力应用于放射科影像&#xff0c;帮助用户快速、准确地解…

作者头像 李华
网站建设 2026/2/10 22:21:01

HY-Motion 1.0多场景落地:边缘设备(RTX 4090工作站)实时生成方案

HY-Motion 1.0多场景落地&#xff1a;边缘设备&#xff08;RTX 4090工作站&#xff09;实时生成方案 1. 技术背景与核心价值 HY-Motion 1.0代表了动作生成技术的最新突破&#xff0c;将Diffusion Transformer架构与Flow Matching技术相结合&#xff0c;打造出参数规模达十亿级…

作者头像 李华