news 2026/2/25 6:27:28

Enhancing Multi-Image Understanding through Delimiter Token Scaling

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Enhancing Multi-Image Understanding through Delimiter Token Scaling

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Authors:Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

Deep-Dive Summary:

通过缩放分隔符标记增强多图像理解

Minyoung Lee1 ^11,Yejir Park1 ^11,Dongjun Hwang1 ^11,Yejin Kim1 , 2 ^{1,2}1,2,Seong Joon Oh2 , 3 ^{2,3}2,3,Junsuk Choe1 † ^{1\dagger}1
1 ^11西江大学 (Sogang University),2 ^22韩国科学技术院 (KAIST),3 ^33蒂宾根大学 (Tübingen University)

摘要

大型视觉语言模型(LVLMs)在单图像任务中表现强劲,但在输入多张图像时性能会下降。一个主要原因是跨图像信息泄漏 (cross-image information leakage),即模型难以区分不同图像的信息。现有的 LVLMs 已经使用分隔符标记(delimiter tokens)来标识每张图像的开始和结束,但我们的分析表明,这些标记无法有效阻止跨图像信息泄漏。为了增强其有效性,我们提出了一种缩放分隔符标记隐藏状态的方法。该方法通过增强图像内交互并限制不必要的跨图像交互,增强了模型保留特定图像信息的能力。因此,模型能够更好地区分图像并进行更准确的推理。实验表明,在 Mantis、MuirBench、MIRB 和 QBench2 等多图像基准测试中,该方法带来了性能提升。我们进一步在需要清晰区分的纯文本任务上评估了该方法,提升了多文档和多表格理解基准测试(包括 TQABench、MultiNews 和 WCEP-10)的性能。值得注意的是,我们的方法不需要额外的训练或推理成本。

代码可见:https://github.com/MYM-young/DelimScaling

1 引言

大型视觉语言模型(LVLMs)在提供单张图像时表现出强大的理解能力。然而,当输入多张图像时,其性能会显著下降。最近的研究将其归因于模型无法清晰区分单张图像,这种现象被称为跨图像信息泄漏。结果导致生成的输出经常混淆不同图像的信息。

虽然现有模型引入了特殊的图像分隔符标记来区分图像,但这些标记的作用和机制在文献中仍鲜有探讨。为了填补这一空白,我们分析了分隔符标记在模型中的功能。通过对注意力分数的分析,我们发现尽管这些标记在一定程度上辅助区分图像,但跨图像交互仍然存在。这表明当前模型难以完全隔离不同图像的视觉上下文,最终导致信息泄漏。

为了理解这种行为,我们研究了分隔符标记如何贡献于图像分离,并确定了两个关键属性:它们从其他图像标记中吸收注意力的能力,以及它们在增强图像内交互中的作用。基于这些见解,我们提出了一种简单有效的方法:通过缩放分隔符标记的隐藏状态来增强这两个属性。这种方法在保留图像内交互的同时减少了跨图像交互,从而帮助模型更有效地区分图像。

我们在多种多图像理解任务上验证了该方法,显著提高了 Mantis、MuirBench、MIRB 和 QBench2 等数据集的性能。此外,在需要清晰隔离的多表格和多文档等纯文本场景中,我们也观察到了持续的增益。该方法在无需任何额外训练或推理开销的情况下实现了这些改进,突显了其实用性和效率。

2 相关工作

2.1 多图像理解

最近关于 LVLMs 多图像理解的研究主要分为基于训练的方法和无需训练的方法。基于训练的方法(如 Mantis)通过构建多图像指令数据集进行微调,但成本高昂。无需训练的方法如 AVAM 利用文本-图像对齐选择相关区域,但增加了结构复杂性;FOCUS 采用对比解码策略,但推理成本高(每增加一张图需额外前向传播)。相比之下,我们的方法在无需训练、无推理开销且不改变架构的情况下增强了多图像理解。

2.2 大型语言模型中的 Sink Tokens

最近的研究关注到某些标记(通常是序列开头的<BOS>)具有异常高的激活值,被称为Sink Tokens(汇聚标记)。它们作为隐式偏差项,均匀地影响整个序列的注意力模式。而在多图像 LVLMs 中,图像分隔符标记也表现出高注意力,但其行为是局部的,主要关注对应图像内的标记,这与全局性的 Sink Tokens 不同。

图 1:图像分隔符标记对注意力图的影响。(a) 带有分隔符标记时,出现清晰的三角形模式标识图像边界。(b) 去掉后,这些模式消失。© 用其他特殊标记(如<|im_start|>)替换后,也会产生混淆。

2.3 跨图像信息泄漏

这指模型无法清晰分离多个输入图像,导致信息错误混合。本文详细分析了分隔符标记的注意力模式,揭示了泄漏产生的原因,并提出了缓解策略。

3 图像分隔符标记真的有效吗?

尽管使用了特殊标记(如 Qwen2.5-VL 中的<|vision_start|>),跨图像泄漏依然存在。通过移除或替换这些标记,我们发现:

  1. 分隔符标记对区分图像至关重要:存在分隔符时,注意力图显示出清晰的三角形块状模式(图 1a)。移除或替换它们会导致这些边界消失并带来约 10 个百分点的性能下降。
  2. 局限性:虽然它们有助于区分,但并不能完全阻止跨图像交互(图 1a 中的红框),这说明其区分效果是不完整的。

4 通过分隔符标记进行图像级标记 (Image-wise Tagging)

我们发现了分隔符标记的两个关键属性:

  • 属性 1:第i ii个图像分隔符标记接收来自第i ii张图像标记的强注意力,形成一一对应关系。
  • 属性 2:分隔符标记的强注意力充当了“图像标签 (image tag)”,从而增强了图像内交互。

数学表达如下,注意力输出是值向量的加权和:

A t t e n t i o n ( Q q , K ≤ q , V ≤ q ) = ∑ i ≤ q p q , i v i = ∑ d ≤ q p q , d v d + ∑ j ≤ q p q , j v j , d ∈ D , j ∉ D . ( 1 ) \mathrm{Attention}(Q_{q},K_{\leq q},V_{\leq q}) = \sum_{i\leq q}p_{q,i}v_{i} = \sum_{d\leq q}p_{q,d}v_{d} + \sum_{j\leq q}p_{q,j}v_{j},\quad d\in \mathcal{D},j\notin \mathcal{D}. \quad (1)Attention(Qq,Kq,Vq)=iqpq,ivi=dqpq,dvd+jqpq,jvj,dD,j/D.(1)

其中D \mathcal{D}D是分隔符标记的索引集。图像i ii中的所有标记共享一个共同的加性项p d i v d i p_{d_{i}}v_{d_{i}}pdivdi,它作为局部偏差增强了图像内的交互。

图 2:(a) 对第二张图像分隔符的注意力。(b) 图像标记值(Tagging values)。

图 3:缩放图像分隔符标记对注意力的影响。缩放后(下),分隔符标记成为强吸引子,在区分图像的同时保留图像内交互(属性 2)。

5 方法

我们提出通过缩放分隔符标记的隐藏状态来增强其判别能力。设h t ( l ) h_{t}^{(l)}ht(l)为第l ll层标记t tt的隐藏状态,修改如下(λ > 1 \lambda > 1λ>1为缩放因子):

h t ( l ) ∗ = { λ ⋅ h t ( l ) i f t ∈ D , h t ( l ) o t h e r w i s e . ( 2 ) h_{t}^{(l)*} = \left\{ \begin{array}{ll}\lambda \cdot h_{t}^{(l)} & \mathrm{if} t \in \mathcal{D}, \\ h_{t}^{(l)} & \mathrm{otherwise}. \end{array} \right. \quad (2)ht(l)={λht(l)ht(l)iftD,otherwise.(2)

5.1 该方法如何增强分隔符属性

缩放隐藏状态增强了属性 1(增加其接收的注意力)。由于 Softmax 的归一化作用,强化分隔符会相应减少对其他图像标记的注意力,从而降低跨图像交互。同时,缩放也增加了值向量v d v_dvd的幅度,从而通过增加p d i v d i p_{d_i} v_{d_i}pdivdi项的贡献来维持并加强图像内交互(属性 2)。

5.2 经验证据

在使用 Qwen2.5-VL-3B 的实验中:

  • 减少跨图像泄漏:跨图像交互下降了约50 % 50\%50%(见图 4 和图 5a)。
  • 保留图像内交互:图像内部的交互基本不受影响(见图 5a 右侧)。

图 4:应用该方法前后注意力图的定性对比。应用后跨图像交互明显减少。

图 5:(a) 缩放前后图像间交互的变化。(b) 缩放后,图像标记效应增强。

5.3 讨论

  • 计算优势:该方法与 FlashAttention 兼容。直接修改注意力权重会极大增加内存负担,而我们的方法非常高效。
  • 保留文本-图像交互:实验显示文本-图像交互仅下降约10 % 10\%10%,模态间的整体交互保持稳健。

6 实验

6.1 基准测试与设置

我们在四个多图像基准(Mantis, MuirBench, MIRB, QBench2)以及多文档(MultiNews, WCEP-10)和多表格(TQABench)基准上进行了评估。

表 1:四个多图像基准测试的性能。在 Qwen2.5-VL、InternVL3 和 LLaVA-OneVision 系列模型上均有提升。

DatasetModelQwen2.5-VL 3BQwen2.5-VL 7BQwen2.5-VL 32BInternVL3 1BInternVL3 2BInternVL3 8BInternVL3 14BLLaVA-OV 0.5BLLaVA-OV 7B
MantisBaseline59.9168.6668.2047.0052.0767.2871.8940.0962.21
+ Ours63.1369.1270.0549.7754.3869.1272.8141.0164.06
MuirBenchBaseline37.3145.2353.1228.6227.6936.8842.4224.5835.04
+ Ours42.4248.1553.8229.3827.6536.9242.5824.8535.35
MIRBBaseline56.4563.5754.9038.4944.3852.3256.4531.7947.88
+ Ours57.3863.0555.2140.2546.9652.6357.5932.3048.19
QBench2Baseline62.7075.8081.4050.8065.2076.5079.6051.7073.90
+ Ours63.3076.5081.7050.2065.6076.6080.1051.9074.20

表 2:WCEP10 结果(ROUGE 分数)。

ModelR-1R-2R-L
Qwen2.5-3B27.309.7518.42
+ Ours27.529.9918.47
Qwen2.5-7B29.7411.5920.30
+ Ours29.7711.7020.35
Phi-1.59.571.457.94
+ Ours9.801.498.09

表 3:MultiNews 结果(ROUGE 分数)。

ModelR-1R-2R-L
Qwen2.5-3B37.1610.8518.81
+ Ours37.2410.9018.84
Qwen2.5-7B37.1811.2619.15
+ Ours37.1911.2919.17
Phi-1.526.305.7314.55
+ Ours26.365.7614.61

表 4:TQABench 准确率。

ModelAccuracy
Qwen2.5-3B37.38
+ Ours37.84
Qwen2.5-7B37.50
+ Ours38.14

表 5:关于分隔符、M-RoPE 和我们方法的消融实验。

DelimM-RoPEOursAccuracy
××59.91
××53.92
×62.21
×63.13

6.2 实验结果

多图像理解结果。如表 1 所示,我们的方法在 Qwen2.5-VL、InternVL3 和 LLaVA-OneVision 等所有模型系列中均一致地提升了性能。这种提升在 Mantis、Muirbench、MIRB 和 Qbench2 等广泛的基准测试中均有体现,证明了我们方法的稳健性。例如,在 Muirbench 基准测试中,Qwen2.5-VL-3B 模型的得分从 37.31 提升至 42.42;在 Mantis 上,InternVL3-2B 模型从 52.07 提升至 54.38。值得注意的是,从规模较小(如 0.5B)到规模较大(如 32B)的模型都出现了性能增益,这表明所提出的分隔符标记缩放方法(delimiter token scaling)在各种模型容量下都是有效的。这些在不同模型和多图像理解基准测试中取得的一致性改进,凸显了我们方法的通用性和实用性。

多文档和多表理解结果。表 2 和表 3 展示了在多文档摘要任务上的 ROUGE 分数。在 WCEP10 和 MultiNews 数据集上,所提出的分隔符标记缩放方法在所有模型中都一致地提高了 ROUGE-1、ROUGE-2 和 ROUGE-L 分数。在 Qwen2.5-7B 和 Phi-1.5 模型中也观察到了类似的改进。表 4 进一步显示了在多表推理基准测试 TQABench 上的持续增益。值得注意的是,应用我们方法的 Qwen2.5-3B 模型甚至优于 7B 的基线模型,这是一个令人瞩目的结果。这表明我们的分隔符标记缩放方法可以产生超出通过增加模型规模所能获得的性能增益。

图 6:Mantis 基准测试的定性结果。虽然任务是多选题,但答案以句子形式呈现,以展示我们的方法减少了跨图像泄露,而基线 Qwen2.5-VL 则失败了。

这些结果证明了我们的方法广泛适用于不同的输入模态,而不仅仅局限于多图像设置。

定性结果。我们在图 6 中对模型输出进行了定性分析。在图 6a 中,基线模型错误地声称两张图像中都有人在骑自行车,而实际上只有第二张图像包含此内容。这展示了一个跨图像信息泄露(cross-image information leakage)的案例,即来自第二张图像的信息污染了对第一张图像的理解。相比之下,我们的方法使模型能够正确识别只有第二张图像包含骑自行车的人。在图 6b 中,正确答案是“北极熊和骆驼”,每种动物出现在不同的图像中。然而,基线模型返回了“骆驼和北极熊”,颠倒了对应关系。通过我们的方法,模型保留了两张图像之间的区别并得出了正确答案。这些例子表明,我们的方法有效地减少了跨图像信息泄露,从而在多张图像之间实现了更准确、去耦合的推理。

与 M-RoPE 的比较。在 Qwen2-VL 中,时间位置嵌入(temporal positional embeddings)被应用于视频帧,以便在时间轴上区分它们。这在概念上与我们的图像特定标记方法相似。受此启发,我们与基于 M-RoPE 的时间嵌入方法进行了对比实验,其中每张图像都被注入了时间位置嵌入。

如表 5 所示,仅应用 M-RoPE 导致的性能低于基线。当 M-RoPE 与图像分隔符标记结合使用时,性能虽然超过了基线,但仍然落后于我们的方法。这些发现表明,引入帮助模型更好区分图像的机制——如 M-RoPE 或分隔符标记——可以减轻由跨图像信息泄露引起的性能下降。值得注意的是,虽然 M-RoPE 最初是为视频任务中的时间区分设计的,但它也能提高多图像设置下的性能。这进一步支持了我们的假设,即图像区分度不足是性能下降的关键原因。总的来说,这些结果表明,我们简单的隐藏状态缩放方法在解决此类混淆方面比更复杂的时间嵌入策略更有效。

与 Focus 的比较。我们将我们的方法与 Focus 进行了比较,Focus 是之前旨在减轻跨图像信息泄露的方法。为了公平起见,我们对超参数进行了网格搜索,总共得到 81 种配置,并选取性能最好的一种进行比较。如表 6 所示,我们的方法在 Mantis 基准测试中持续优于 Focus。表 7 还显示,Focus 导致了更高的内存使用,并导致 Qwen2.5-VL-72B 和 InternVL3-78B 出现显存溢出(OOM)错误。在显存(VRAM)使用方面,我们的方法显著更具效率,峰值消耗约为 Focus 的一半。此外,它在运行时间上也更高效。这些发现证实了我们的方法不仅能产生显著的性能提升,还能保持优越的资源效率。

交错示例的 Few-Shot 评估。我们还进行了 Few-Shot 评估。我们将单图像数据集重组为 Few-Shot 设置,构建了 4-shot 的交错(interleaved)输入,其中每张图像后面依次跟着相应的问答。在 TextVQA 和 OKVQA 的验证集切片(validation-lite)上评估此设置。

表 8:在 OKVQA 和 VizWiz 上的 Few-shot 性能。

数据集模型Qwen2.5-VL 3BQwen2.5-VL 7BInternVL3 8B
OKVQA基线 + 我们的方法18.04→ \rightarrow20.0027.56→ \rightarrow28.2446.84→ \rightarrow48.68
VizWiz基线 + 我们的方法42.38→ \rightarrow42.8853.70→ \rightarrow54.3647.04→ \rightarrow50.92

如表 8 所示,我们在 Qwen2.5-VL-3B、Qwen2.5-VL-7B 和 InternVL3-8B 上观察到了一致的性能改进。由于此任务需要理解示例图像及其伴随的文本,图像-文本交互至关重要。性能的提升证明了我们的方法也可以有效地应用于图像与文本关系重要的下游任务。这些发现进一步表明,我们的方法适用于交错数据,并且在 Few-shot 设置下依然有效,展现了其能够推广到更广泛场景的能力。

在大规模模型上的表现。我们在更大规模的模型上进行了额外实验。我们在 Mantis 基准测试上使用 Qwen2.5-VL-72B 和 InternVL3-78B 对我们的方法进行了评估。如表 9 所示,结果显示两种模型在应用我们的方法时均表现出性能改进。这表明随着模型规模的增加,我们的方法依然有效,并能可靠地应用于极大规模的模型。

超参数敏感性。如图 7 所示,我们尝试了λ \lambdaλ的一系列缩放值并分析了它们的影响。结果显示,与红虚线表示的基线相比,大多数设置下的性能均有一致的提升,这表明我们的方法对该超参数的波动具有稳健性。这些发现支持了这样一个观点:适当放大图像分隔符标记的隐藏状态可以有效缓解跨图像信息泄露。

图 7:超参数λ \lambdaλ的敏感性分析。

7 结论

在这项工作中,我们通过分析图像分隔符标记(负责分离视觉输入)的作用和局限性,解决了多图像输入设置中的跨图像信息泄露问题。基于这一分析,我们提出了一种简单的方法来增强这些标记的功能,在保持同一图像内交互的同时,有效地抑制了跨图像的交互。我们的方法在各种多图像基准测试中一致地提高了性能,并展示了其在纯文本设置(如多文档和多表理解)中的泛化能力。该方法易于集成,且不引入额外的训练或推理成本。

Original Abstract:Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model’s ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.

PDF Link:2602.01984v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/25 6:23:39

基于平扫CT的疾病诊断网络[python]-计算机毕业设计源码+LW文档

摘要&#xff1a;平扫CT作为一种常见的医学影像技术&#xff0c;在疾病诊断中发挥着重要作用。本文旨在探讨基于平扫CT的疾病诊断网络的相关研究。介绍了平扫CT的基本原理和特点&#xff0c;分析了其在疾病诊断中的应用需求&#xff0c;阐述了相关的技术如深度学习等在其中的应…

作者头像 李华
网站建设 2026/2/21 11:26:34

Web前端开发面试,一个35岁程序员过来人的建议…

敲前端代码整整12年&#xff0c;从刚毕业挤在出租屋刷题面试的毛头小子&#xff0c;到现在带团队、筛简历、坐面试官位置的“老前端”&#xff0c;35岁的我&#xff0c;见过太多前端求职者栽的坑&#xff0c;也惋惜过很多有能力的人&#xff0c;因为不会应对面试&#xff0c;错…

作者头像 李华
网站建设 2026/2/14 8:16:50

电商SkyWalking微服务链路日志收集实战:TraceID串联ELK实现全链路可观测

一、微服务可观测性挑战与整合方案 1.1 微服务监控的痛点 在复杂的微服务架构中&#xff0c;一次用户请求往往需要经过多个服务的协同处理。当出现性能问题或异常时&#xff0c;排查变得异常困难&#xff1a; 日志分散&#xff1a;各服务日志存储在不同服务器&#xff0c;难以…

作者头像 李华