news 2026/4/15 7:33:10

我们如何持续适应视觉-语言模型?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我们如何持续适应视觉-语言模型?

原文:towardsdatascience.com/how-can-we-continually-adapt-vision-language-models-3e7bfa19b34e?source=collection_archive---------6-----------------------#2024-08-26

探索 CLIP 的持续学习策略

https://alicjadobrzeniecka.medium.com/?source=post_page---byline--3e7bfa19b34e--------------------------------https://towardsdatascience.com/?source=post_page---byline--3e7bfa19b34e-------------------------------- Alicja Dobrzeniecka

·发布于 Towards Data Science ·8 分钟阅读·2024 年 8 月 26 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/50e5d7820bf844fb40605562495b7cb7.png

图片由作者在 Midjourney 中创作

目前对大语言模型的研究和应用兴趣日益增长。然而,这些模型只能处理文本数据,这限制了它们在某些应用中的实用性。人类能够处理跨多个模态的信息,如书面和口语语言,以及对我们周围现实的视觉理解。我们期望模型能够进行类似的处理。

视觉-语言模型能够处理文本和视觉数据,这在图像分析(例如医学图像)、物体识别和更好的场景理解(例如自动驾驶汽车)、为图像生成描述、回答视觉问题、与图像进行对话等领域有广泛的应用。

不幸的是,多模态模型面临着与单模态模型相同的挑战。一旦训练完成,随着新数据样本的到来或数据分布的变化,它们可能会随着时间的推移变得过时。

在我的上一篇文章中,我介绍了**持续学习(CL)方法,适用于 AI 模型。持续学习试图找到持续训练模型的方法,这可能是未来更可持续的解决方案。在本文中,我想探讨将 CL 应用于视觉-语言模型(VLMs)**的可能性——特别是对比语言-图像预训练(CLIP)模型的应用。

但什么是 CLIP?

对比语言-图像预训练(CLIP)由 OpenAI 在 2021 年的从自然语言监督学习可转移的视觉模型论文中提出 [1]。

CLIP 模型的目标是理解文本与图像之间的关系。如果你输入一段文本,它应该返回在给定图像集合中最相关的图像。同样,如果你输入一张图像,它应该从可用的文本集合中给出最匹配的文本。

CLIP 是在一个大型的文本-图像对数据集上训练的。通过对比学习,将匹配的文本-图像对拉近到嵌入空间中,并将不匹配的对远离彼此。然后,这个学习到的共享嵌入空间在推理时用于理解文本和图像之间的关系。如果你想了解更多关于 CLIP 的信息,我推荐阅读以下文章,它详细描述了 CLIP。

为什么我们需要为视觉-语言模型进行持续学习?

大型基础模型可能会因为分布的变化或新数据样本的到来而变得过时。重新训练这些模型既昂贵又耗时。TiC-CLIP 论文的作者 [7] 显示,当前的评估实践往往未能捕捉到在考虑时间演变数据时性能的差异。

在图 1 中,你可以看到如果我们比较 2020 年前训练的 OpenAI 模型和 2022 年前训练的 OpenCLIP 模型,尽管它们在 Imagenet 上的鲁棒性(左侧图像)差异不大,但在从 2014-2016 年和 2021-2022 年的检索任务上比较时(右侧图像),它们之间存在性能差距,表明 OpenAI 模型在时间演变的数据上零-shot 鲁棒性较差 [7]。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ce1610a9e1bdb4c9f10f04d6a784a443.png

图 1. 来自论文 TiC-CLIP: Continual Training of Clip Models [7] 的图像。

此外,持续学习可能是某些使用案例的自然选择,比如在线终身学习(OLL)[8],其中数据来自于连续和非平稳的数据流,并随着时间变化而演化。

最后,正如 [4] 中指出的,CLIP 展示了显著的零-shot 能力,但对于某些领域,由于预训练时某些类别的数据不足,它可能难以实现良好的性能。

挑战

随着一些当前最先进的视觉-语言模型需要越来越多的计算时间和资源,找到一种不断适应这些模型而无需重新训练的方法似乎变得至关重要。然而,持续适应这些模型也面临一些挑战:

CLIP 的持续学习方法

目前正在进行的研究旨在改善多模态模型的持续学习方面。以下是一些现有的策略和应用场景:

  1. 专家混合(MoE)

2.CoLeCLIP

3.持续语言学习(CLL)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/532d655751f4c0832b09042cda678768.png

图 2. 来自论文《通过持续语言学习拥抱 CLIP 中的语言包容性和多样性》中的图像[3]。

4.对称图像-文本调优策略(SIT)

持续学习模型的评估

持续学习(CL)的评估标准似乎仍在完善中。许多现有的评估 CL 模型有效性的基准在构建数据集时并没有考虑时间因素。正如[7]中提到的,性能差距有时只有在我们重新创建时间演变的测试数据设置时才会显现出来。

此外,许多现有的视觉-语言模型基准仅关注单张图像输入,而未衡量多图像理解,这在某些应用中可能至关重要。[5]的作者开发了一个多图像评估基准,可以更细致地评估当前最先进模型的局限性和能力。

持续学习并不能解决所有问题…

像 CLIP 这样的视觉-语言模型有其不足之处。在[6]中,作者探讨了 CLIP 的视觉嵌入空间与纯粹的视觉自监督学习之间的差距。他们研究了嵌入空间中的错误匹配,在这些地方,图像的编码相似,尽管它们不应如此。

根据他们的结果可以得出结论,如果一个预训练模型存在弱点,那么在模型适应过程中,这些弱点可能会被传播。学习视觉表示仍然是一个开放的挑战,视觉模型可能会成为多模态系统的瓶颈,因为仅仅扩展模型规模并不能解决像 CLIP 这样的模型内在的局限性。[6]

结论

本文探讨了将持续学习应用于视觉-语言模型的机遇与挑战,重点介绍了 CLIP 模型。希望本文能给您提供一个初步印象,表明虽然持续学习似乎是未来 AI 模型的一个良好方向,但仍有大量工作需要完成,才能使其完全可用。

如果您有任何问题或评论,请随时在评论区分享。

下次再见!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1fca5a8264874543865ae3508b2a7c78.png

图像由作者在 Midjourney 中生成。

参考文献

[1] Radford, A., Kim, J., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). 从自然语言监督中学习可转移的视觉模型。载于第 38 届国际机器学习会议论文集(第 8748–8763 页)。PMLR。

[2] 余家左, 朱戎智, 张璐, 胡平, 王东, 陆虎川, & 何友. (2024). 通过专家混合适配器提升视觉-语言模型的持续学习。

[3] 杨邦, 戴勇, 程旭鑫, 李耀伟, 阿西夫·拉扎, & 邹跃贤. (2024). 通过持续语言学习拥抱 CLIP 中的语言包容性和多样性。

[4] 李宇坤, 庞冠松, 苏伟, 景晨晨, 谷凌曦, 刘玲桥, 陈昊, 梁国强, & 王鹏. (2024). CoLeCLIP:通过联合任务提示和词汇学习实现开放域持续学习。

[5] 赵冰晨, 宗永硕, 张乐天, & 提莫西·霍斯佩达雷斯. (2024). 视觉和语言模型中的多图像理解基准测试:感知、知识、推理和多跳推理。

[6] 孙胜邦, 刘庄, 斋月翔, 马怡, 扬·勒昆, & 谢赛宁. (2024). 眼睛紧闭?探索多模态 LLM 的视觉缺陷。

[7] 索拉布·加尔格, 哈迪·普尔·安萨里, 梅赫达德·法拉吉塔巴尔, 萨钦·梅塔, 拉维特贾·维穆拉帕利, 恩切尔·图泽尔, 维沙尔·尚卡尔, & 法尔塔什·法赫里 (2023). TiC-CLIP:CLIP 模型的持续训练. 在NeurIPS 工作坊中。

[8] 王乐源, 向柳玉, 魏宇杰, 王云龙, & 何兆锋. (2024). CLIP 模型是一个高效的在线终身学习者。

[9] 维沙尔·腾甘, 萨尔曼·汗, 穆纳瓦尔·哈亚特, & 法赫德·汗. (2023). CLIP 模型是一个高效的持续学习者。

[10] 丁宇轩, 刘玲桥, 田春娜, 杨景元, & 丁昊轩. (2022). 别停下学习:面向 CLIP 模型的持续学习。

[11] 阿卡什·戈什, 阿尔卡迪普·阿查亚, 斯里帕尔娜·萨哈, 维尼娅·简, & 阿曼·查达. (2024). 探索视觉-语言模型的前沿:当前方法论与未来方向的调查。

[12] 倪子, 魏林, 唐爽, 庄煜, & 田琦. (2023). 通过离对角线信息进行持续的视觉-语言表示学习. 在第 40 届国际机器学习会议论文集中。JMLR.org。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 8:34:19

怎么实现涂装工艺管理的智能化转型?

在现代制造业向高质量、高效率、低碳化转型的进程中,涂装工艺管理正经历一场深刻变革。传统涂装依赖人工经验、事后检验与孤立操作,普遍存在质量波动大、返工率高、能耗浪费严重、数据孤岛频现等问题,难以满足日益严苛的环保标准与客户对产品…

作者头像 李华
网站建设 2026/4/14 18:13:10

文献学闭卷考试复习指南:重点知识梳理与应试技巧解析

你是不是也这样:下载的PDF堆满文件夹,想找的时候死活记不住名字;读文献时灵感一闪,回头却找不到记在哪了;写论文时,调整一个引用格式就要折腾半小时…文献管理不是小事,它直接决定了你的研究效率…

作者头像 李华
网站建设 2026/4/14 6:18:02

CRINN:通过强化学习自动优化近似近邻算法

概述 本文的重点是优化高维向量空间中的近似近邻搜索(ANNS)。 近似近邻搜索是一种以略微牺牲搜索精度为代价来显著提高搜索速度的技术,最近已成为检索增强生成(RAG)和基于代理的 LLM 应用基础技术的组成部分。 传统的优…

作者头像 李华
网站建设 2026/4/15 0:15:57

vue和springboot框架开发的校园一卡通管理系统_学生卡管理系统44by5n49

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 vuesprivuespringboot_44by5n49 学生卡管理系统框架开…

作者头像 李华
网站建设 2026/4/13 18:35:01

「binlog 轮转(max_binlog_size)」** 和 **「binlog 清理(expire)」

目录标题一、先给结论(重点)二、max_binlog_size 为什么“看起来”会导致堆积?实际行为是:三、5.7:expire_logs_days 为什么“看起来不生效”?1️⃣ 生效条件(非常关键)2️⃣ 最常见…

作者头像 李华