Enhancing Multi-Image Understanding through Delimiter Token Scaling-平芜编程栈

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Authors:Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

Deep-Dive Summary:

通过缩放分隔符标记增强多图像理解

Minyoung Lee1 ^11,Yejir Park1 ^11,Dongjun Hwang1 ^11,Yejin Kim1 , 2 ^{1,2}1,2,Seong Joon Oh2 , 3 ^{2,3}2,3,Junsuk Choe1 † ^{1\dagger}1†
1 ^11西江大学 (Sogang University),2 ^22韩国科学技术院 (KAIST),3 ^33蒂宾根大学 (Tübingen University)

摘要

大型视觉语言模型（LVLMs）在单图像任务中表现强劲，但在输入多张图像时性能会下降。一个主要原因是跨图像信息泄漏 (cross-image information leakage)，即模型难以区分不同图像的信息。现有的 LVLMs 已经使用分隔符标记（delimiter tokens）来标识每张图像的开始和结束，但我们的分析表明，这些标记无法有效阻止跨图像信息泄漏。为了增强其有效性，我们提出了一种缩放分隔符标记隐藏状态的方法。该方法通过增强图像内交互并限制不必要的跨图像交互，增强了模型保留特定图像信息的能力。因此，模型能够更好地区分图像并进行更准确的推理。实验表明，在 Mantis、MuirBench、MIRB 和 QBench2 等多图像基准测试中，该方法带来了性能提升。我们进一步在需要清晰区分的纯文本任务上评估了该方法，提升了多文档和多表格理解基准测试（包括 TQABench、MultiNews 和 WCEP-10）的性能。值得注意的是，我们的方法不需要额外的训练或推理成本。

代码可见：https://github.com/MYM-young/DelimScaling

1 引言

大型视觉语言模型（LVLMs）在提供单张图像时表现出强大的理解能力。然而，当输入多张图像时，其性能会显著下降。最近的研究将其归因于模型无法清晰区分单张图像，这种现象被称为跨图像信息泄漏。结果导致生成的输出经常混淆不同图像的信息。

虽然现有模型引入了特殊的图像分隔符标记来区分图像，但这些标记的作用和机制在文献中仍鲜有探讨。为了填补这一空白，我们分析了分隔符标记在模型中的功能。通过对注意力分数的分析，我们发现尽管这些标记在一定程度上辅助区分图像，但跨图像交互仍然存在。这表明当前模型难以完全隔离不同图像的视觉上下文，最终导致信息泄漏。

为了理解这种行为，我们研究了分隔符标记如何贡献于图像分离，并确定了两个关键属性：它们从其他图像标记中吸收注意力的能力，以及它们在增强图像内交互中的作用。基于这些见解，我们提出了一种简单有效的方法：通过缩放分隔符标记的隐藏状态来增强这两个属性。这种方法在保留图像内交互的同时减少了跨图像交互，从而帮助模型更有效地区分图像。

我们在多种多图像理解任务上验证了该方法，显著提高了 Mantis、MuirBench、MIRB 和 QBench2 等数据集的性能。此外，在需要清晰隔离的多表格和多文档等纯文本场景中，我们也观察到了持续的增益。该方法在无需任何额外训练或推理开销的情况下实现了这些改进，突显了其实用性和效率。

2 相关工作

2.1 多图像理解

最近关于 LVLMs 多图像理解的研究主要分为基于训练的方法和无需训练的方法。基于训练的方法（如 Mantis）通过构建多图像指令数据集进行微调，但成本高昂。无需训练的方法如 AVAM 利用文本-图像对齐选择相关区域，但增加了结构复杂性；FOCUS 采用对比解码策略，但推理成本高（每增加一张图需额外前向传播）。相比之下，我们的方法在无需训练、无推理开销且不改变架构的情况下增强了多图像理解。

2.2 大型语言模型中的 Sink Tokens

最近的研究关注到某些标记（通常是序列开头的<BOS>）具有异常高的激活值，被称为Sink Tokens（汇聚标记）。它们作为隐式偏差项，均匀地影响整个序列的注意力模式。而在多图像 LVLMs 中，图像分隔符标记也表现出高注意力，但其行为是局部的，主要关注对应图像内的标记，这与全局性的 Sink Tokens 不同。

图 1：图像分隔符标记对注意力图的影响。(a) 带有分隔符标记时，出现清晰的三角形模式标识图像边界。(b) 去掉后，这些模式消失。© 用其他特殊标记（如<|im_start|>）替换后，也会产生混淆。

2.3 跨图像信息泄漏

这指模型无法清晰分离多个输入图像，导致信息错误混合。本文详细分析了分隔符标记的注意力模式，揭示了泄漏产生的原因，并提出了缓解策略。

3 图像分隔符标记真的有效吗？

尽管使用了特殊标记（如 Qwen2.5-VL 中的<|vision_start|>），跨图像泄漏依然存在。通过移除或替换这些标记，我们发现：

分隔符标记对区分图像至关重要：存在分隔符时，注意力图显示出清晰的三角形块状模式（图 1a）。移除或替换它们会导致这些边界消失并带来约 10 个百分点的性能下降。
局限性：虽然它们有助于区分，但并不能完全阻止跨图像交互（图 1a 中的红框），这说明其区分效果是不完整的。

4 通过分隔符标记进行图像级标记 (Image-wise Tagging)

我们发现了分隔符标记的两个关键属性：

属性 1：第i ii个图像分隔符标记接收来自第i ii张图像标记的强注意力，形成一一对应关系。
属性 2：分隔符标记的强注意力充当了“图像标签 (image tag)”，从而增强了图像内交互。

数学表达如下，注意力输出是值向量的加权和：

A t t e n t i o n ( Q q , K ≤ q , V ≤ q ) = ∑ i ≤ q p q , i v i = ∑ d ≤ q p q , d v d + ∑ j ≤ q p q , j v j , d ∈ D , j ∉ D . ( 1 ) \mathrm{Attention}(Q_{q},K_{\leq q},V_{\leq q}) = \sum_{i\leq q}p_{q,i}v_{i} = \sum_{d\leq q}p_{q,d}v_{d} + \sum_{j\leq q}p_{q,j}v_{j},\quad d\in \mathcal{D},j\notin \mathcal{D}. \quad (1)Attention(Qq,K≤q,V≤q)=i≤q∑pq,ivi=d≤q∑pq,dvd+j≤q∑pq,jvj,d∈D,j∈/D.(1)

其中D \mathcal{D}D是分隔符标记的索引集。图像i ii中的所有标记共享一个共同的加性项p d i v d i p_{d_{i}}v_{d_{i}}pdivdi，它作为局部偏差增强了图像内的交互。

图 2：(a) 对第二张图像分隔符的注意力。(b) 图像标记值（Tagging values）。

图 3：缩放图像分隔符标记对注意力的影响。缩放后（下），分隔符标记成为强吸引子，在区分图像的同时保留图像内交互（属性 2）。

5 方法

我们提出通过缩放分隔符标记的隐藏状态来增强其判别能力。设h t ( l ) h_{t}^{(l)}ht(l)为第l ll层标记t tt的隐藏状态，修改如下（λ > 1 \lambda > 1λ>1为缩放因子）：

h t ( l ) ∗ = { λ ⋅ h t ( l ) i f t ∈ D , h t ( l ) o t h e r w i s e . ( 2 ) h_{t}^{(l)*} = \left\{ \begin{array}{ll}\lambda \cdot h_{t}^{(l)} & \mathrm{if} t \in \mathcal{D}, \\ h_{t}^{(l)} & \mathrm{otherwise}. \end{array} \right. \quad (2)ht(l)∗={λ⋅ht(l)ht(l)ift∈D,otherwise.(2)

5.1 该方法如何增强分隔符属性

缩放隐藏状态增强了属性 1（增加其接收的注意力）。由于 Softmax 的归一化作用，强化分隔符会相应减少对其他图像标记的注意力，从而降低跨图像交互。同时，缩放也增加了值向量v d v_dvd的幅度，从而通过增加p d i v d i p_{d_i} v_{d_i}pdivdi项的贡献来维持并加强图像内交互（属性 2）。

5.2 经验证据

在使用 Qwen2.5-VL-3B 的实验中：

减少跨图像泄漏：跨图像交互下降了约50 % 50\%50%（见图 4 和图 5a）。
保留图像内交互：图像内部的交互基本不受影响（见图 5a 右侧）。

图 4：应用该方法前后注意力图的定性对比。应用后跨图像交互明显减少。

图 5：(a) 缩放前后图像间交互的变化。(b) 缩放后，图像标记效应增强。

5.3 讨论

计算优势：该方法与 FlashAttention 兼容。直接修改注意力权重会极大增加内存负担，而我们的方法非常高效。
保留文本-图像交互：实验显示文本-图像交互仅下降约10 % 10\%10%，模态间的整体交互保持稳健。

6 实验

6.1 基准测试与设置

我们在四个多图像基准（Mantis, MuirBench, MIRB, QBench2）以及多文档（MultiNews, WCEP-10）和多表格（TQABench）基准上进行了评估。

表 1：四个多图像基准测试的性能。在 Qwen2.5-VL、InternVL3 和 LLaVA-OneVision 系列模型上均有提升。

Dataset	Model	Qwen2.5-VL 3B	Qwen2.5-VL 7B	Qwen2.5-VL 32B	InternVL3 1B	InternVL3 2B	InternVL3 8B	InternVL3 14B	LLaVA-OV 0.5B	LLaVA-OV 7B
Mantis	Baseline	59.91	68.66	68.20	47.00	52.07	67.28	71.89	40.09	62.21
+ Ours	63.13	69.12	70.05	49.77	54.38	69.12	72.81	41.01	64.06
MuirBench	Baseline	37.31	45.23	53.12	28.62	27.69	36.88	42.42	24.58	35.04
+ Ours	42.42	48.15	53.82	29.38	27.65	36.92	42.58	24.85	35.35
MIRB	Baseline	56.45	63.57	54.90	38.49	44.38	52.32	56.45	31.79	47.88
+ Ours	57.38	63.05	55.21	40.25	46.96	52.63	57.59	32.30	48.19
QBench2	Baseline	62.70	75.80	81.40	50.80	65.20	76.50	79.60	51.70	73.90
+ Ours	63.30	76.50	81.70	50.20	65.60	76.60	80.10	51.90	74.20

表 2：WCEP10 结果（ROUGE 分数）。

Model	R-1	R-2	R-L
Qwen2.5-3B	27.30	9.75	18.42
+ Ours	27.52	9.99	18.47
Qwen2.5-7B	29.74	11.59	20.30
+ Ours	29.77	11.70	20.35
Phi-1.5	9.57	1.45	7.94
+ Ours	9.80	1.49	8.09

表 3：MultiNews 结果（ROUGE 分数）。

Model	R-1	R-2	R-L
Qwen2.5-3B	37.16	10.85	18.81
+ Ours	37.24	10.90	18.84
Qwen2.5-7B	37.18	11.26	19.15
+ Ours	37.19	11.29	19.17
Phi-1.5	26.30	5.73	14.55
+ Ours	26.36	5.76	14.61

表 4：TQABench 准确率。

Model	Accuracy
Qwen2.5-3B	37.38
+ Ours	37.84
Qwen2.5-7B	37.50
+ Ours	38.14

表 5：关于分隔符、M-RoPE 和我们方法的消融实验。

Delim	M-RoPE	Ours	Accuracy
✓	×	×	59.91
×	✓	×	53.92
✓	✓	×	62.21
✓	×	✓	63.13

6.2 实验结果

多图像理解结果。如表 1 所示，我们的方法在 Qwen2.5-VL、InternVL3 和 LLaVA-OneVision 等所有模型系列中均一致地提升了性能。这种提升在 Mantis、Muirbench、MIRB 和 Qbench2 等广泛的基准测试中均有体现，证明了我们方法的稳健性。例如，在 Muirbench 基准测试中，Qwen2.5-VL-3B 模型的得分从 37.31 提升至 42.42；在 Mantis 上，InternVL3-2B 模型从 52.07 提升至 54.38。值得注意的是，从规模较小（如 0.5B）到规模较大（如 32B）的模型都出现了性能增益，这表明所提出的分隔符标记缩放方法（delimiter token scaling）在各种模型容量下都是有效的。这些在不同模型和多图像理解基准测试中取得的一致性改进，凸显了我们方法的通用性和实用性。

多文档和多表理解结果。表 2 和表 3 展示了在多文档摘要任务上的 ROUGE 分数。在 WCEP10 和 MultiNews 数据集上，所提出的分隔符标记缩放方法在所有模型中都一致地提高了 ROUGE-1、ROUGE-2 和 ROUGE-L 分数。在 Qwen2.5-7B 和 Phi-1.5 模型中也观察到了类似的改进。表 4 进一步显示了在多表推理基准测试 TQABench 上的持续增益。值得注意的是，应用我们方法的 Qwen2.5-3B 模型甚至优于 7B 的基线模型，这是一个令人瞩目的结果。这表明我们的分隔符标记缩放方法可以产生超出通过增加模型规模所能获得的性能增益。

图 6：Mantis 基准测试的定性结果。虽然任务是多选题，但答案以句子形式呈现，以展示我们的方法减少了跨图像泄露，而基线 Qwen2.5-VL 则失败了。

这些结果证明了我们的方法广泛适用于不同的输入模态，而不仅仅局限于多图像设置。

定性结果。我们在图 6 中对模型输出进行了定性分析。在图 6a 中，基线模型错误地声称两张图像中都有人在骑自行车，而实际上只有第二张图像包含此内容。这展示了一个跨图像信息泄露（cross-image information leakage）的案例，即来自第二张图像的信息污染了对第一张图像的理解。相比之下，我们的方法使模型能够正确识别只有第二张图像包含骑自行车的人。在图 6b 中，正确答案是“北极熊和骆驼”，每种动物出现在不同的图像中。然而，基线模型返回了“骆驼和北极熊”，颠倒了对应关系。通过我们的方法，模型保留了两张图像之间的区别并得出了正确答案。这些例子表明，我们的方法有效地减少了跨图像信息泄露，从而在多张图像之间实现了更准确、去耦合的推理。

与 M-RoPE 的比较。在 Qwen2-VL 中，时间位置嵌入（temporal positional embeddings）被应用于视频帧，以便在时间轴上区分它们。这在概念上与我们的图像特定标记方法相似。受此启发，我们与基于 M-RoPE 的时间嵌入方法进行了对比实验，其中每张图像都被注入了时间位置嵌入。

如表 5 所示，仅应用 M-RoPE 导致的性能低于基线。当 M-RoPE 与图像分隔符标记结合使用时，性能虽然超过了基线，但仍然落后于我们的方法。这些发现表明，引入帮助模型更好区分图像的机制——如 M-RoPE 或分隔符标记——可以减轻由跨图像信息泄露引起的性能下降。值得注意的是，虽然 M-RoPE 最初是为视频任务中的时间区分设计的，但它也能提高多图像设置下的性能。这进一步支持了我们的假设，即图像区分度不足是性能下降的关键原因。总的来说，这些结果表明，我们简单的隐藏状态缩放方法在解决此类混淆方面比更复杂的时间嵌入策略更有效。

与 Focus 的比较。我们将我们的方法与 Focus 进行了比较，Focus 是之前旨在减轻跨图像信息泄露的方法。为了公平起见，我们对超参数进行了网格搜索，总共得到 81 种配置，并选取性能最好的一种进行比较。如表 6 所示，我们的方法在 Mantis 基准测试中持续优于 Focus。表 7 还显示，Focus 导致了更高的内存使用，并导致 Qwen2.5-VL-72B 和 InternVL3-78B 出现显存溢出（OOM）错误。在显存（VRAM）使用方面，我们的方法显著更具效率，峰值消耗约为 Focus 的一半。此外，它在运行时间上也更高效。这些发现证实了我们的方法不仅能产生显著的性能提升，还能保持优越的资源效率。

交错示例的 Few-Shot 评估。我们还进行了 Few-Shot 评估。我们将单图像数据集重组为 Few-Shot 设置，构建了 4-shot 的交错（interleaved）输入，其中每张图像后面依次跟着相应的问答。在 TextVQA 和 OKVQA 的验证集切片（validation-lite）上评估此设置。

表 8：在 OKVQA 和 VizWiz 上的 Few-shot 性能。

数据集	模型	Qwen2.5-VL 3B	Qwen2.5-VL 7B	InternVL3 8B
OKVQA	基线 + 我们的方法	18.04→ \rightarrow→20.00	27.56→ \rightarrow→28.24	46.84→ \rightarrow→48.68
VizWiz	基线 + 我们的方法	42.38→ \rightarrow→42.88	53.70→ \rightarrow→54.36	47.04→ \rightarrow→50.92

如表 8 所示，我们在 Qwen2.5-VL-3B、Qwen2.5-VL-7B 和 InternVL3-8B 上观察到了一致的性能改进。由于此任务需要理解示例图像及其伴随的文本，图像-文本交互至关重要。性能的提升证明了我们的方法也可以有效地应用于图像与文本关系重要的下游任务。这些发现进一步表明，我们的方法适用于交错数据，并且在 Few-shot 设置下依然有效，展现了其能够推广到更广泛场景的能力。

在大规模模型上的表现。我们在更大规模的模型上进行了额外实验。我们在 Mantis 基准测试上使用 Qwen2.5-VL-72B 和 InternVL3-78B 对我们的方法进行了评估。如表 9 所示，结果显示两种模型在应用我们的方法时均表现出性能改进。这表明随着模型规模的增加，我们的方法依然有效，并能可靠地应用于极大规模的模型。

超参数敏感性。如图 7 所示，我们尝试了λ \lambdaλ的一系列缩放值并分析了它们的影响。结果显示，与红虚线表示的基线相比，大多数设置下的性能均有一致的提升，这表明我们的方法对该超参数的波动具有稳健性。这些发现支持了这样一个观点：适当放大图像分隔符标记的隐藏状态可以有效缓解跨图像信息泄露。

图 7：超参数λ \lambdaλ的敏感性分析。

7 结论

在这项工作中，我们通过分析图像分隔符标记（负责分离视觉输入）的作用和局限性，解决了多图像输入设置中的跨图像信息泄露问题。基于这一分析，我们提出了一种简单的方法来增强这些标记的功能，在保持同一图像内交互的同时，有效地抑制了跨图像的交互。我们的方法在各种多图像基准测试中一致地提高了性能，并展示了其在纯文本设置（如多文档和多表理解）中的泛化能力。该方法易于集成，且不引入额外的训练或推理成本。

Original Abstract:Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model’s ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.

PDF Link:2602.01984v1