news 2026/3/12 12:26:28

From Correspondence to Actions Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Languag

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
From Correspondence to Actions Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Languag

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Authors:Masanari Oi, Koki Maeda, Ryuto Koike, Daisuke Oba, Nakamasa Inoue, Naoaki Okazaki

Deep-Dive Summary:

摘要

虽然多模态大语言模型(MLLMs)在单图像空间推理方面取得了显著进展,但在需要整合多个视角信息的多图像空间推理任务中仍面临挑战。认知研究表明,人类通过两种机制解决此类任务:跨视图对应关系(识别不同视图中对应相同物理位置的区域)和逐步视角转换(按顺序组合相对视角变化)。现有的研究通常只是部分或隐晦地整合了这些机制。为此,我们提出了HATCH(Human-Aware Training for Cross-view correspondence and viewpoint cHange),这是一个具有两个互补目标的训练框架:(1)块级空间对齐(PaStA),鼓励在空间对应区域的跨视图补丁表示进行对齐;(2)先动作后回答推理(ActoR),要求模型在预测最终答案之前生成显式的视角转换动作。在三个基准测试上的实验表明,HATCH 显著优于同等规模的基准模型,并能与更大规模的模型竞争,同时保持了单图像推理能力。

1. 引言

图 1. 多图像空间推理的两种认知机制:(a) 跨视图对应关系;(b) 逐步视角转换(例如旋转)。

人类通过建立跨视图的空间对应关系并执行逐步的视角转换来进行多视图推理。现有的方法往往通过大规模微调或引入 3D 专业模型来隐含地处理这些问题,但缺乏统一且显式的学习目标。

HATCH 框架通过以下两个核心组件将这些认知见解显式地融入 MLLM 训练中:

  • PaStA:教模型“如何看”,通过几何监督对齐不同视图间的补丁特征。
  • ActoR:教模型“如何动”,通过强化学习(GRPO)优化视角转换动作的生成。

实验显示,HATCH 将基准模型(Qwen2.5-VL-3B-Instruct)的性能平均提升了14.2 % 14.2\%14.2%,并在多项基准测试中优于更大规模的模型。

2. 相关工作

多图像空间推理要求模型整合物理场景的不同视图信息。现有工作多采用显式的空间或 3D 表示,但通常不会在统一的学习目标中同时监督跨视图对应和逐步视角转换。HATCH 通过特征级对齐和基于动作的视角转换训练,直接将这两种机制结合起来。

3. 方法论

3.1 问题设置

输入包含一组捕捉相同场景的不同视角图像I = { I 1 , I 2 , … , I N } \mathcal{I} = \{I_1, I_2, \ldots , I_N\}I={I1,I2,,IN}和一个自然语言问题Q QQ。训练期间可使用相机内参、位姿和深度图,但这些信息仅用于构建监督信号,不作为模型输入。

3.2 HATCH 概述

图 2. HATCH 流水线概览:包含 PaStA(学习对应关系)和 ActoR(执行视角转换动作)。

训练分为两个阶段:

  1. PaStA 阶段:仅更新图像编码器,冻结语言模型。
  2. ActoR 阶段:通过显式的视角转换动作教模型如何进行推理。

3.3 块级空间对齐 (PaStA)

PaStA 利用训练时的几何信息构造补丁级的对应目标。通过计算跨视图的定向重叠矩阵M X → Y M_{X \to Y}MXY,定义对称的空间对应矩阵S SS

S = 1 2 ( M X → Y + M Y → X ⊤ ) ( 1 ) S = \frac{1}{2} (M_{X \to Y} + M_{Y \to X}^{\top}) \quad (1)S=21(MXY+MYX)(1)

基于S SS构造目标对应分布p ( j ∣ i ) p(j|i)p(ji)

p ( j ∣ i ) = s o f t m a x j ( S [ i , : ] τ 1 ) ( 2 ) p(j\mid i) = \mathrm{softmax}_j\left(\frac{S[i,:]}{\tau_1}\right) \quad (2)p(ji)=softmaxj(τ1S[i,:])(2)

模型预测的分布q ( j ∣ i ) q(j|i)q(ji)则基于补丁特征间的余弦相似度:

q ( j ∣ i ) = s o f t m a x j ( cos ⁡ ( e i X , e j Y ) τ 2 ) ( 3 ) q(j\mid i) = \mathrm{softmax}_j\left(\frac{\cos(\mathbf{e}_i^X,\mathbf{e}_j^Y)}{\tau_2}\right) \quad (3)q(ji)=softmaxj(τ2cos(eiX,ejY))(3)

通过最小化交叉熵损失L C L \mathcal{L}_{\mathrm{CL}}LCL来对齐这两个分布。

3.4 先动作后回答推理 (ActoR)

ActoR 将推理过程公式化为:先生成 JSON 格式的视角转换动作序列A \mathcal{A}A,再预测答案a aa

动作序列包含一系列原子相机操作(如turn_left,move_forward)。训练过程包括:

  1. 冷启动 SFT:使用离线构造的动作序列让模型熟悉输出格式。
  2. 带可验证奖励的强化学习:使用 GRPO 算法,通过三个奖励组件进行优化:

R = λ 1 R a c t − a c c + λ 2 R a n s − a c c + λ 3 R f o r m a t ( 8 ) R = \lambda_{1}R_{\mathrm{act - acc}} + \lambda_{2}R_{\mathrm{ans - acc}} + \lambda_{3}R_{\mathrm{format}} \quad (8)R=λ1Ractacc+λ2Ransacc+λ3Rformat(8)

其中R a c t − a c c R_{\mathrm{act - acc}}Ractacc评估动作的几何准确性,R a n s − a c c R_{\mathrm{ans - acc}}Ransacc评估答案正确性。

4. 实验

我们在 SPAR-Bench-MV、MindCube-Tiny 和 MMSI-Bench 三个基准上评估了 HATCH(基于 Qwen2.5-VL-3B)。

4.2 主要结果

HATCH 在所有基准测试上均显著提升了基准模型的性能。例如,在 SPAR-Bench-MV 上提升了17.8 17.817.8个百分点。其表现甚至可以媲美 GPT-5.2 等闭源模型,并优于 32B/72B 等更大的开源模型。

4.3 分析

  • 训练动力学:如图 3 所示,训练呈现两个阶段:首先是动作奖励提升,随后是 QA 奖励提升,这证实了视角转换动作作为中间推理步骤的有效性。


图 3. GRPO 训练期间的奖励变化趋势。

  • 消融研究:如表 2 所示,移除 PaStA 或 ActoR 都会导致性能下降,说明两者在多图像推理中起到了互补作用。

  • 网格分辨率:图 4 显示,当补丁网格n = 4 n=4n=4时效果最佳,过细的网格会破坏视觉区域的完整性。


图 4. PaStA 网格分辨率分析。

  • 推理模态:相比于自然语言思维链(CoT),基于动作的推理(HATCH)提供了更精确、可验证的几何线索,表现更优(见图 5)。


图 5. 不同推理模态的定性对比。

4.4 单图像空间推理性能

尽管 HATCH 针对多图像设计,但在单图像基准测试(SPAR-Bench-SI 和 CV-Bench)上也表现出色,优于同尺寸甚至更大尺寸的模型,显示了其良好的泛化能力。

5. 结论

本研究提出了 HATCH 框架,通过结合表示层的对应关系学习(PaStA)和结构化的先动作后回答推理(ActoR),有效地提升了多模态大模型的跨视图空间理解能力。实验证明,这种受人类认知启发的训练方式在多图像和单图像任务中均取得了优异成绩。

影响声明

本文介绍的研究工作旨在推进机器学习领域的发展。尽管该研究可能产生多种潜在的社会影响,但作者认为目前没有需要在此特别强调的具体事项。

Original Abstract:While multimodal large language models (MLLMs) have made substantial progress in single-image spatial reasoning, multi-image spatial reasoning, which requires integration of information from multiple viewpoints, remains challenging. Cognitive studies suggest that humans address such tasks through two mechanisms: cross-view correspondence, which identifies regions across different views that correspond to the same physical locations, and stepwise viewpoint transformation, which composes relative viewpoint changes sequentially. However, existing studies incorporate these mechanisms only partially and often implicitly, without explicit supervision for both. We propose Human-Aware Training for Cross-view correspondence and viewpoint cHange (HATCH), a training framework with two complementary objectives: (1) Patch-Level Spatial Alignment, which encourages patch representations to align across views for spatially corresponding regions, and (2) Action-then-Answer Reasoning, which requires the model to generate explicit viewpoint transition actions before predicting the final answer. Experiments on three benchmarks demonstrate that HATCH consistently outperforms baselines of comparable size by a clear margin and achieves competitive results against much larger models, while preserving single-image reasoning capabilities.

PDF Link:2602.08735v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/12 0:02:48

拓竹 3D打印炒面 拉丝避坑指南:这5招让你一次成型不浪费;耗8小时+半斤耗材打出“抽象摆件”?很多问题都是底部支撑没有粘牢,导致墨模型倒塌, brim设置很关键,内外侧8mm 第一层就结实了

先展示下我的唐僧师徒 3D打印炒面 拉丝避坑指南:这5招让你一次成型不浪费;耗8小时+半斤耗材打出“抽象摆件”? 目录 先展示下我的唐僧师徒 3D打印炒面 拉丝避坑指南:这5招让你一次成型不浪费;耗8小时+半斤耗材打出“抽象摆件”? 先看这个打印件:到底踩了哪些坑? 5招避开…

作者头像 李华
网站建设 2026/3/10 3:21:56

分布式存储架构设计:突破大规模数据管理瓶颈的技术实践

分布式存储架构设计:突破大规模数据管理瓶颈的技术实践 【免费下载链接】dufs A file server that supports static serving, uploading, searching, accessing control, webdav... 项目地址: https://gitcode.com/gh_mirrors/du/dufs 分布式存储架构是应对海…

作者头像 李华
网站建设 2026/3/11 9:56:19

告别平台割裂:新一代游戏库管理工具的全域聚合方案

告别平台割裂:新一代游戏库管理工具的全域聚合方案 【免费下载链接】vnite 本地游戏管理器 / Game Manager 项目地址: https://gitcode.com/gh_mirrors/vn/vnite 多平台游戏整合的混乱现状正在消耗玩家的宝贵时间——Steam、Epic、GOG等平台各自为政&#xf…

作者头像 李华
网站建设 2026/3/4 21:39:51

计算机小程序毕设实战-基于springboot的体检预约小程序基于微信小程序的医院体检预约系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/7 15:38:35

小程序毕设选题推荐:基于springboot的优购在线社区便利店系统小程序基于微信小程序的在线社区优购便利店系统【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/3/4 11:43:34

Redis可视化工具终极全攻略:从入门到精通RedisInsight数据库管理

Redis可视化工具终极全攻略:从入门到精通RedisInsight数据库管理 【免费下载链接】RedisInsight Redis GUI by Redis 项目地址: https://gitcode.com/GitHub_Trending/re/RedisInsight RedisInsight作为Redis官方推出的免费可视化工具,彻底革新了…

作者头像 李华