news 2026/4/12 22:45:25

【华东师范-林绍辉组-ICLR26】Vision-R1

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【华东师范-林绍辉组-ICLR26】Vision-R1

文章:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

代码:暂无

单位:华东师范大学


一、问题背景:多模态推理的两大核心痛点

当前多模态大模型的推理能力提升面临着难以逾越的障碍:

  • 数据层面:现有多模态推理数据集多依赖人工标注,不仅成本高,还容易产生缺乏人类认知过程的“伪思维链”(Pseudo-CoT),缺少质疑、反思等关键认知环节,无法支撑复杂推理训练。

  • 训练层面:直接将强化学习(RL)应用于多模态大模型时,由于缺乏高质量多模态推理数据,模型难以生成复杂连贯的推理过程,甚至出现推理步骤冗长却性能下降的“过度思考”问题,导致推理能力提升受限。

与此同时,纯文本大模型DeepSeek-R1通过RL技术成功实现了推理能力的自主涌现,这启发研究者探索:能否将RL技术迁移至多模态领域,突破其推理瓶颈?

二、方法创新:三步打造强推理多模态模型

Vision-R1提出“冷启动初始化+渐进式强化学习”的创新框架,从数据构建到训练策略实现全流程优化:

  1. 模态桥接技术(Modality Bridging):无需人工标注,构建20万高质量多模态思维链数据集。先利用现有多模态大模型将图像-问题对转化为包含视觉描述和结构化推理的“伪思维链”,再通过模态桥接将视觉信息转化为文本,输入DeepSeek-R1生成具备人类认知特征的复杂思维链,最终经数据过滤形成Vision-R1-cold冷启动数据集。

  1. 渐进式思维抑制训练(PTST):针对冷启动后模型的“过度思考”问题,设计分阶段训练策略。初期限制推理长度,引导模型掌握正确推理方法;随训练推进逐步放宽长度约束,让模型自主学习复杂推理过程。

  2. 改进型强化学习框架:采用组相对策略优化(GRPO),搭配严格格式+结果双奖励函数(仅当格式合规且答案正确时给予奖励),确保模型在扩展推理复杂度的同时保持准确性。

三、实验结果:7B参数实现“以小博大”

在三大主流多模态数学推理基准测试中,Vision-R1展现出惊人性能:

  • 核心性能:7B参数的Vision-R1在MathVista基准上达到73.5%的准确率,仅比当前顶尖模型OpenAI O1低0.4%,超越众多10倍参数以上的大模型。

  • 细分任务优势:在几何推理(80.3%)、代数推理(79.0%)等细分任务上,较基础模型平均提升超10%,展现出强大的逻辑推理能力。

  • 数据集质量验证:Vision-R1-cold数据集中包含“Wait”“Hmm”等反思类词汇的频率远超现有数据集,用该数据训练的模型在通用和数学基准上均实现SOTA性能,验证了数据的高质量。

  • 消融实验证明:冷启动初始化+PTST策略的组合是性能关键,较直接RL训练(Vision-R1-Zero)平均准确率提升4.7%,有效解决了过度思考问题。

四、优势与局限

核心优势

  1. 效率领先:7B参数规模兼顾性能与部署成本,较70B+参数模型大幅降低计算开销,为实际应用提供可能。

  2. 数据高效:模态桥接技术突破人工标注瓶颈,实现高质量数据集的低成本构建,可扩展性强。

  3. 推理自然:模型生成的思维链包含质疑、反思等人类认知特征,展现出“顿悟时刻”(Aha Moment),推理过程更具可解释性。

现存局限

  1. 任务范围集中于数学推理,在常识推理、情感分析等多模态任务上的泛化能力仍需验证;

  2. 训练过程需依赖DeepSeek-R1等强推理文本模型,整体流程的独立性有待提升;

  3. 分阶段训练策略对超大规模数据集的适应性,以及更长推理序列的性能稳定性仍需优化。

五、一句话总结

Vision-R1通过模态桥接构建高质量数据集、PTST策略优化强化学习流程,首次实现了强化学习在多模态大模型推理能力提升中的有效应用,让7B参数模型具备对标70B+参数模型的推理性能,为多模态智能的实用化推进提供了全新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/4 3:20:27

OFA-VE部署案例:Airflow调度OFA-VE任务实现每日图文质量巡检

OFA-VE部署案例:Airflow调度OFA-VE任务实现每日图文质量巡检 1. 什么是OFA-VE:不只是视觉分析,而是图文逻辑的“质检员” 你有没有遇到过这样的问题:电商团队每天上传上千张商品图,每张图都配了文案描述,…

作者头像 李华
网站建设 2026/4/10 17:27:11

Qwen2.5-7B-Instruct保姆级教程:显存溢出报错识别与快速修复

Qwen2.5-7B-Instruct保姆级教程:显存溢出报错识别与快速修复 1. 为什么7B模型总在关键时刻“爆显存”?你不是一个人在战斗 很多人第一次跑Qwen2.5-7B-Instruct时,满怀期待点下回车——结果页面突然弹出一行刺眼的红字:CUDA out …

作者头像 李华
网站建设 2026/3/28 19:28:33

Z-Image-Turbo_UI界面适合哪些绘画场景?案例展示

Z-Image-Turbo_UI界面适合哪些绘画场景?案例展示 Z-Image-Turbo_UI界面不是那种需要敲命令、配环境、调参数的硬核工具,而是一个开箱即用的图像生成“画板”——你只需要打开浏览器,输入一个地址,就能开始创作。它没有复杂的节点…

作者头像 李华
网站建设 2026/4/8 10:25:54

新手教程:三极管截止与导通状态图解说明

以下是对您提供的博文《新手教程:三极管截止与导通状态图解说明——原理、判据与工程实践解析》的 深度润色与专业重构版本 。本次优化严格遵循您提出的全部要求: ✅ 彻底去除AI痕迹,语言自然如资深硬件工程师现场授课 ✅ 摒弃“引言/概述/总结”等模板化结构,全文以逻…

作者头像 李华
网站建设 2026/4/9 1:28:24

从0开始学VAD技术:FSMN模型实战入门教程

从0开始学VAD技术:FSMN模型实战入门教程 语音端点检测(Voice Activity Detection,简称VAD)听起来专业,其实就干一件事:听一段音频,自动标出“哪里有人在说话”,把静音、噪音这些干扰…

作者头像 李华