news 2026/5/19 6:00:47

纯视觉的终结?顶会趋势:不会联觉(多模态)的CV不是好AI

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
纯视觉的终结?顶会趋势:不会联觉(多模态)的CV不是好AI

2023年至2025年间,计算机视觉与机器学习社区经历了一场静默而深刻的变革。根据一项最新分析,视觉语言模型已成为近一半顶级会议论文的核心,传统感知任务正被重新定义为“指令跟随”与“多步推理”。

这项研究由曼彻斯特大学冯明林团队完成,他们系统分析了CVPR、ICLR和NeurIPS三大会议2023-2025年间接收的26,104篇论文的标题与摘要,通过构建的手工词典与正则表达式匹配,为每篇论文分配最多35个主题标签。


一、三大宏观趋势

研究发现了三个显著的宏观转变:

  • 视觉语言模型崛起:VLM/LLM相关论文从2023年的16%飙升至2025年的40%,成为绝对主流。到2025年,CVPR和ICLR中近四成论文涉及这一方向。

  • 生成式方法持续扩张:扩散模型研究从8%稳步增长至19.2%,焦点从基础生成转向可控性、蒸馏与加速。

  • 3D与视频研究保持活力:3D研究整体稳定但内部构成变化,从神经辐射场转向高斯泼溅;视频理解持续上升,部分得益于视频LLM和长上下文建模的兴起

图1展示了各研究方向的年度变化趋势,每条曲线代表一个研究方向的时间演变。


二、传统范式退潮,新范式崛起

图2的小多图揭示了更细微的变化:生成式与多模态领域持续扩张并渗透至3D、视频和编辑任务;而自监督学习、元学习、图神经网络等传统范式相对份额下降或停滞。

与此同时,“工程与安全”主题如效率、鲁棒性和隐私在整个领域扩散,成为普遍关注点。

结构感知的3D理解也在加强,点云处理略有回升,网格和表面建模稳步上升,显示出对可控、约束感知几何的兴趣。

时间感知和以人为中心的理解获得关注,视频理解从低基数攀升,姿态、面部和全身分析在过去两年加速,标志着向智能体和以人为中心应用的转变。


三、视觉语言模型生态全景

模型家族演变:ALIGN家族在VLM摘要中被引最多,而LLaVA增长最快,反映了社区向指令跟随型VLM的转变。经典骨干网络如ResNet、ViT的可见度大致减半,而混合专家模型引用在2025年翻倍。

图3以条形图形式直观展示了增长最快的研究方向,视觉语言/多模态/LLM方向增长最为显著。

  • 架构融合趋势:参数高效的轻量级桥接成为默认设计选择。提示/前缀调优是最常引用的机制且持续上升,适配器/LoRA使用也稳步增长。

  • 任务重心转移:研究重点从任务特定监督转向通用、指令调优的推理能力。推理/指令跟随任务增长最快,而传统的接地/引用任务显著下降。

  • 训练范式变革:社区从使用大规模弱监督构建编码器,转向使用指令数据和参数高效更新来适配这些编码器和冻结的LLM。这降低了成本,加快了迭代速度,并与模块化融合趋势保持一致。

  • 损失函数重新平衡:对比学习目标份额显著下降,反映了新工作从从头构建图像-文本编码器转向适配此类预训练编码器并将其与大型LLM耦合的趋势。

  • 数据集提及变化:传统数据集如MS-COCO和ImageNet在摘要中被提及的次数稳步下降,而开放式网络资源保持稳定但份额较小。

  • 多模态扩展策略:3D/点云信号整体呈上升趋势,深度/RGB-D大致稳定,而音频/语音和视频-文本略有下降。这表明了一种实用策略:重用强大的图像-文本基础,并通过对齐或提示附加其他模态。


四、跨会议比较与实用建议

CVPR保持最强的3D重点,而ICLR在2025年拥有最大的VLM份额。NeurIPS在数据截止的2024年显示出早期的VLM增长。

给研究者的实用建议:

  • 将经典视觉问题重新表述为基于预训练多模态骨干的指令跟随、接地或工具使用任务

  • 如果扩散模型是管道的一部分,强调可控性、速度/蒸馏和可靠性

  • 开发能够扩展到分钟或小时长序列同时保持推理能力和内存效率的方法

  • 明确说明效率和安全考虑,轻量级推理、稀疏性、缓存感知设计以及安全/鲁棒性问题


五、方法局限与数据开放

该研究基于摘要的词典驱动方法,某些字段在摘要中系统性报告不足,因此绝对数字较为保守。论文可能有多标签,百分比是每年所有论文的比例,总和不为100%。

尽管如此,主要趋势在不同会议和年份间保持一致。团队发布了完整词典和代码,以鼓励重现性和扩展到其他会议/年份。


总结

研究清晰表明,计算机视觉与机器学习领域已进入“多模态生成基础+3D感知与编辑”的新时代,传统方法更多作为组件融入更大系统,而可扩展性和安全性成为普遍关注点。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/19 13:35:04

爱测智能化测试平台:手工测试用例也能AI自动执行

关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集 测试工程师最怕的是什么?重复、枯燥的点击操作、控件测试和页面切换,占据了大量精力,却没有增加创新价值。 现在,爱测智能化测试平台让手工测…

作者头像 李华
网站建设 2026/5/13 5:50:21

Linux新手必看:Miniconda-Python3.9镜像安装与环境激活全流程

Linux新手必看:Miniconda-Python3.9镜像安装与环境激活全流程 在数据科学和人工智能项目日益普及的今天,很多初学者常常卡在第一步——如何快速搭建一个稳定、可用的Python开发环境。你是否也曾遇到过这样的情况:刚准备开始写代码&#xff0c…

作者头像 李华
网站建设 2026/5/19 13:34:16

Python装饰器应用案例:Miniconda环境下的性能监控

Python装饰器与Miniconda环境协同:构建可复现的性能监控开发平台 在数据科学和人工智能项目中,我们常常遇到这样的场景:一段模型训练代码在本地运行良好,但换到同事的机器上却报错;或者某个数据预处理函数突然变慢&…

作者头像 李华
网站建设 2026/5/14 20:21:12

【Java毕设源码分享】基于springboot+vue的教育资源分享系统的设计与实现(程序+文档+代码讲解+一条龙定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/12 1:50:59

谁懂啊!普通人学完黑客技术,生活爽感直接拉满!

黑客一词已经被大家”神秘化了“,其实说白了就是网络安全工程师/专家。 在当今互联网当道期间,数据安全比以前任何时候都重要。黑客就是利用你的技能来改进安全系统并保护组织免受潜在的网络威胁。它是一种安全测试技术,用于识别计算机系统中…

作者头像 李华
网站建设 2026/5/17 6:58:34

人车门禁系统:从安防基石到智慧生态核心枢纽

在数字化转型加速渗透的今天,人车门禁系统已跳出传统“出入口把关”的单一维度,成为构建智慧建筑、智慧园区乃至智慧城市的核心基础设施。作为人员通行管理与安全防护的第一道防线,它不仅承载着保障区域安全的基础使命,更通过技术…

作者头像 李华