📖标题:Interleaved Latent Visual Reasoning with Selective Perceptual Modeling
🌐来源:arXiv, 2512.05665
🌟摘要
交错推理范式通过视觉反馈增强多模态大型语言模型 (MLLM),但受到重复重新编码像素密集图像的计算成本过高的阻碍。一种很有前途的替代方法,潜在的视觉推理,绕过了这个瓶颈,但目前迫使一个关键的权衡:方法要么通过过度压缩特征牺牲精确的感知建模,要么由于静态的、非交错的结构而无法建模动态问题。我们引入了交错潜在视觉推理(ILVR),这是一个将动态状态演化与精确感知建模统一起来的框架。ILVR 将文本生成与潜在视觉表示交织在一起,这些表示充当特定的、不断发展的线索以进行后续推理。为了实现这一点,我们采用了一种自我监督策略,其中动量教师模型选择性地将辅助图像中的相关特征提取到稀疏监督目标中。这种自适应选择机制引导模型自主生成上下文感知的视觉信号。在多模态推理基准上的广泛实验表明,ILVR 显着优于现有方法,有效地弥合了细粒度感知和顺序多模态推理之间的差距。该代码可在 https://github.com/XD111ds/ILVR 获得。
🛎️文章简介
🔸研究问题:如何在多模态推理中有效整合精细感知与动态的潜在推理,以解决复杂的、不断发展的任务?
🔸主要贡献:论文提出了一种新的框架ILVR,通过交错的潜在视觉推理与文本生成,显著提升了多模态智能的推理能力。
📝重点思路
🔸构建交错的潜在-文本范式,使模型在生成文本和潜在表示时进行自回归处理,实现动态状态的演变。
🔸采用动量教师模型,通过对帮助图像进行编码,选择出当前推理步骤中最关键的特征向量,并将其转化为潜在监督目标。
🔸执行两阶段学习,第一阶段进行精确感知建模,第二阶段放宽潜在对齐约束以允许模型更灵活地内部化推理过程。
🔎分析总结
🔸ILVR在多个基准测试中表现出了优越的性能,明显超越了传统的静态潜在方法。
🔸通过动态更新的潜在表现,ILVR能够更好地捕捉多步骤科学问题解决中的演变状态,表明其在精细化推理方面的有效性。
🔸实验结果表明,ILVR的特点是能够选择性地关注每个推理步骤所需的视觉信息,展示了其在更复杂的任务中具有强大的适应能力与准确性。
💡个人观点
论文的创新点在于提出了动态和精确感知相结合的交错潜在视觉推理框架,利用自监督学习和动量教师模型优化了对视觉信息的处理。