news 2026/3/13 18:58:36

【中国科学技术大学-吴枫-ICLR26】CapRL: 通过强化学习激发密集图像描述能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【中国科学技术大学-吴枫-ICLR26】CapRL: 通过强化学习激发密集图像描述能力

文章:CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

代码:https://github.com/InternLM/CapRL

单位:中国科学技术大学、上海人工智能实验室、香港中文大学、上海创新研究院、阿里云


一、问题背景

图像描述(给图片写文字说明)是连接视觉与语言的核心任务,不管是训练大型视觉语言模型,还是落地到图文检索、无障碍辅助等场景都离不开它。但目前主流的训练方法(监督微调SFT)存在明显短板:一方面要依赖大量人工或专有模型标注的数据,成本高还难扩展;另一方面模型会死记硬背固定描述,没法灵活生成多样化、有创意的内容。更关键的是,“好的图片描述”本身很主观,之前的评估方法要么容易被模型“钻空子”(比如故意写冗长或简短的文字讨好评价模型),要么没法准确衡量复杂描述的质量,导致模型进步受限。

二、方法创新

研究团队提出了一种名为CapRL的新框架,核心是把“主观的描述质量”变成“客观的可验证指标”,用强化学习(RLVR)思路解决问题,具体分两大关键点:

  1. 两阶段分离流程:先让视觉语言模型(LVLM)生成图片描述,再让一个“看不见图片”的纯语言模型(LLM),仅根据这个描述回答关于图片的多选题。纯语言模型的答题准确率,就是给生成描述的“客观奖励”——描述越全面准确,答题正确率越高,奖励就越多。

  2. 高质量数据支撑:构建了包含75k图像和对应多选题的数据集,确保问题必须靠分析图片内容才能回答,避免“靠常识答题”的情况;还打造了CapRL-5M数据集,用训练好的CapRL-3B模型给500万张图片标注描述,兼顾多样性和质量。

  3. 细节优化:为了避免偏见,每次提问都会打乱选项顺序;通过多次采样提问取平均,保证奖励的稳定性,让模型专注于提升描述质量而非钻漏洞。

三、实验结果

CapRL的表现让人惊喜,不管是数据规模还是模型能力都实现了突破:

  1. 数据集效果突出:用CapRL-1M(从5M数据中随机抽取)做预训练,在InfoVQA、DocVQA等12个基准测试中,大幅超越现有主流数据集,其中InfoVQA上比DenseFusion-1M高出6.8%。当数据扩大到5M时,性能还在稳步提升,展现出极强的扩展性。

  2. 模型能力越级:CapRL-3B(仅30亿参数)的描述质量,在Prism评估框架下堪比720亿参数的Qwen2.5-VL-72B,平均比基础模型高出8.4%;在图表、信息图理解上优势更明显,ChartQA、InfoVQA等任务的提升幅度均超过10%。

  3. 泛化能力强劲:哪怕只在图表类或自然图像类单一领域训练,CapRL也能在其他领域的测试中取得显著进步,不用专门适配就能应对多种场景。

四、优势与局限

优势

  1. 摆脱标注依赖:不用大量人工标注,靠模型自动生成高质量描述数据集,成本低且可扩展。

  2. 描述质量过硬:生成的内容更全面、准确,减少“凭空捏造”的情况,不管是自然图像还是复杂图表、信息图都能hold住。

  3. 奖励客观可靠:避免了传统评估的主观偏见和“奖励漏洞”,让模型真正朝着“提升描述实用性”的方向优化。

  4. 效率超高:哪怕每张图片只配1个多选题,也能让模型性能大幅提升,训练和部署成本可控。

局限

  1. 依赖高质量多选题:奖励的可靠性完全基于多选题的质量,若问题设计不合理,可能影响模型优化方向。

  2. 计算成本略高:两阶段流程需要额外调用纯语言模型做答题评估,相比单阶段生成,推理时耗时稍长。

  3. 极端场景适配不足:对于超复杂或抽象的图像,多选题可能难以覆盖所有关键信息,导致描述质量提升受限。

五、一句话总结

CapRL通过“描述生成+答题验证”的两阶段强化学习框架,把主观的图片描述质量转化为客观奖励,既解决了传统方法依赖人工标注、描述单一的问题,又实现了模型能力的越级提升,为视觉语言模型的预训练和图像描述任务提供了更高效、更可靠的新方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/4 11:03:53

Z-Image Turbo生成效果:多轮测试中保持一致性的质量表现

Z-Image Turbo生成效果:多轮测试中保持一致性的质量表现 1. 为什么“一致性”比“单次惊艳”更重要? 你有没有遇到过这种情况:第一次用某个AI绘图工具,生成了一张特别满意的图——光影自然、细节丰富、构图舒服;可第…

作者头像 李华
网站建设 2026/3/4 8:58:07

开发者必看:Clawdbot整合Qwen3:32B的轻量级Chat平台快速上手教程

开发者必看:Clawdbot整合Qwen3:32B的轻量级Chat平台快速上手教程 1. 为什么你需要这个轻量级Chat平台 你是不是也遇到过这些情况:想快速验证一个大模型对话能力,却卡在复杂的前端后端API网关搭建流程里;想本地跑通Qwen3:32B但被…

作者头像 李华
网站建设 2026/3/13 7:41:09

VK视频下载工具使用指南:轻松保存喜爱的视频内容

VK视频下载工具使用指南:轻松保存喜爱的视频内容 【免费下载链接】VK-Video-Downloader Скачивайте видео с сайта ВКонтакте в желаемом качестве 项目地址: https://gitcode.com/gh_mirrors/vk/VK-Video-Downlo…

作者头像 李华
网站建设 2026/3/4 8:58:07

提升AI绘画质量:Z-Image-Turbo的CFG参数调节秘诀

提升AI绘画质量:Z-Image-Turbo的CFG参数调节秘诀 1. 为什么CFG是图像质量的“隐形开关” 你有没有遇到过这样的情况:明明写了很详细的提示词,生成的图却像蒙了一层雾——主体模糊、细节糊成一片、光影生硬得不像真实世界?或者相…

作者头像 李华
网站建设 2026/3/4 8:58:08

解锁教育资源获取新姿势:国家中小学智慧教育平台高效下载指南

解锁教育资源获取新姿势:国家中小学智慧教育平台高效下载指南 【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台 电子课本下载工具 项目地址: https://gitcode.com/GitHub_Trending/tc/tchMaterial-parser 在数字化教育加速推进的今天&#xff0c…

作者头像 李华
网站建设 2026/3/9 1:16:21

EagleEye保姆级教程:解决‘CUDA out of memory’的显存优化5步法

EagleEye保姆级教程:解决‘CUDA out of memory’的显存优化5步法 1. 为什么EagleEye会爆显存?先搞懂问题根源 你刚拉下EagleEye仓库,docker-compose up -d 启动服务,上传一张19201080的监控截图——结果终端突然弹出刺眼的报错&…

作者头像 李华