2024多模态视觉：Qwen2-VL / SAM 2 / Molmo-平芜编程栈

一、概述

2024 年多模态视觉方向的代表性工作，已经不再停留在“把图像输入接到大语言模型”这一初级阶段，而是沿着更明确的三条路线持续演进：

通用视觉语言模型（VLM）路线：以Qwen2-VL为代表，重点解决图像、视频、文本统一建模问题，尤其关注动态分辨率、多模态位置编码和长视频理解。
视觉基础模型路线：以SAM 2为代表，重点解决从单图分割到视频时序分割的能力扩展问题。
开放多模态体系路线：以Molmo为代表，重点解决开源多模态模型高度依赖闭源蒸馏数据的问题，强调开放数据、开放训练配方和开放评测体系。

从研究趋势上看，这三类工作分别对应通用理解能力、时序视觉能力、开放生态能力，共同构成了 2024 年多模态视觉的核心进展。

二、Qwen2-VL：面向图像与视频统一建模的通用视觉语言模型

2.1 研究痛点

早期视觉语言模型在输入端通常采用固定分辨率策略，即将所有图像统一缩放到预设尺寸，再转化为固定数量的视觉 token。该方案存在以下几个突出问题：

高分辨率图像细节丢失：文档、表格、OCR 场景往往依赖局部细节，固定缩放容易损失关键信息。
不同图像复杂度利用率低：简单图像和复杂图像被分配相同数量的 token，不够高效。
图像与视频位置建模割裂：文本是一维序列，图像是二维空间，视频是三维时空，传统位置编码难以统一表达。
视频理解能力不足：许多模型只能处理静态图像，难以直接扩展到长视频理解和跨帧推理。

2.2 核心创新点

Qwen2-VL 的关键创新主要体现在以下两个方面：

（1）Naive Dynamic Resolution
不再强制将图像映射为固定数量的视觉 token，而是根据输入图像的分辨率、长宽比和内容复杂度，动态生成不同数量的视觉 token。
这一机制显著提升了复杂视觉内容建模能力，尤其适用于文档、图表、长图和高分辨率场景。

（2）M-RoPE（Multimodal Rotary Position Embedding）
将文本的一维位置、图像的二维位置和视频的三维时空位置纳入统一的位置编码框架，使模型可以在同一主干中处理文本、图像和视频。

2.3 算法方案

Qwen2-VL 的算法流程可以概括为以下四步：

动态视觉 token 化
根据图像/视频输入尺寸与内容复杂度，自适应地切分并生成视觉 token，而不是固定 patch 数量。
统一多模态位置编码
使用 M-RoPE 为文本 token、图像 token、视频 token 注入统一的位置关系。
视觉-语言联合建模
将视觉 token 与文本 token 一起送入语言模型主干进行统一建模和推理。
生成式输出
通过自回归解码完成图像描述、文档问答、OCR 理解、视频问答等任务。

2.4 优势与局限

优势：

支持图像与视频统一建模；
动态分辨率机制提升了复杂视觉输入利用率；
对文档理解、OCR、多尺度图像更友好；
更适合长视频、多语言图文任务。

局限：

动态 token 数会带来推理资源波动；
高分辨率和长视频场景下显存压力仍然较大；
作为通用 VLM，专门分割或精细定位能力并非其最强项。

2.5 适用场景

Qwen2-VL 特别适合以下任务：

图像描述与图文问答
文档理解、OCR 与表格解析
长视频理解与视频问答
多语言视觉语言任务
通用图文 agent 场景

三 SAM 2：从单图分割到视频时序分割的基础模型

3.1 研究痛点

SAM 1 证明了 promptable segmentation 的强大能力，即用户通过点、框、mask 等提示即可快速完成目标分割。然而，它主要聚焦于静态图像场景，难以直接应对视频中的以下问题：

跨帧目标一致性难保持
视频分割需要频繁人工交互
动态场景下目标外观变化明显
单帧分割结果难以向后续帧稳定传播

因此，核心问题变成：
如何将通用分割能力从单帧图像自然扩展到视频时序场景。

3.2 核心创新点

SAM 2 的关键创新主要有两点：

（1）Streaming Memory 机制
在视频处理中引入流式记忆模块，使模型可以利用历史帧中的目标状态、提示信息和分割结果，从而在当前帧中进行更稳定的预测。

（2）图像与视频统一分割框架
SAM 2 不再把图像和视频看成两个独立任务，而是将图像视作单帧视频，在统一架构下进行处理。

此外，SAM 2 还构建了大规模视频分割数据引擎，通过模型参与数据采集和修正，提升训练数据质量与规模。

3.3 算法方案

SAM 2 的整体流程可概括为：

输入提示（Prompt）
用户提供点、框、已有掩码等交互信号。
当前帧视觉编码
视觉编码器提取当前帧的图像特征。
历史状态读取
从 streaming memory 中读取前序帧的目标状态、提示轨迹和历史分割信息。
当前帧分割预测
将当前帧特征与历史 memory 融合后，生成当前帧掩码。
状态回写
将当前帧的关键状态更新回 memory，用于后续帧传播。

该流程使视频分割不再是“每帧从零开始”，而是“基于历史状态连续跟踪与修正”。

3.4 优势与局限

优势：

支持图像与视频统一处理；
适合交互式视频分割；
跨帧一致性更强；
可显著降低视频标注或修正成本。

局限：

更偏向分割任务，不是通用视觉语言模型；
对视频目标长时遮挡、剧烈形变仍有难点；
在复杂场景下 memory 管理与推理成本仍需平衡。

3.5 适用场景

SAM 2 适合以下任务：

视频目标分割
交互式视频标注
视频目标传播与 mask 跟踪
机器人视觉前端区域提取
视频编辑与内容抠图

四、Molmo：开放数据与开放训练配方驱动的多模态模型

4.1 研究痛点

2024 年很多开源多模态模型虽然开放了权重，但其训练过程往往依赖闭源模型生成的合成数据或蒸馏数据，导致以下问题：

训练来源不透明
研究社区难以真正复现
性能提升高度依赖闭源教师模型
开源多模态生态存在“表面开放、实则依赖闭源”的问题

Molmo 所要解决的核心问题是：
能否在不依赖闭源 VLM 蒸馏的前提下，构建真正开放、可复现且强性能的多模态模型体系。

4.2 核心创新点

Molmo 的创新重点不在复杂网络结构，而在于开放体系设计，主要包括：

（1）PixMo 数据体系
构建高质量开放图文数据，包括：

高细节图像描述数据
自由形式图像问答数据
2D pointing 数据

其中 2D pointing 数据尤为关键，因为它将视觉 grounding 从框、mask 等较重标注形式，转化为更轻量、更自然的点标注形式。

（2）Open Weights + Open Data + Open Recipe
Molmo 强调不仅开放模型参数，还尽可能开放数据来源、训练代码和训练流程，使研究者能够复现完整多模态训练路径。

4.3 算法方案

Molmo 的算法结构相对朴素，但工程设计非常扎实，可概括为四段式：

预处理器（Preprocessor）
对输入图像执行多尺度、多裁剪处理，以保留更多局部和全局视觉信息。
视觉编码器（ViT Encoder）
对每个 crop 分别提取 patch-level 视觉特征。
视觉语言连接器（Connector）
将视觉特征进行池化、映射后，对齐到语言模型 embedding 空间。
解码式语言模型（Decoder-only LLM）
对视觉信息与文本提示进行联合建模，完成问答、描述、推理与 grounding。

此外，Molmo 还在训练细节上做了多项优化，例如：

overlapping multi-crop 减少裁剪边界信息损失；
多层特征拼接提升视觉表达丰富度；
单图多标注训练提高样本利用效率。

4.4 优势与局限

优势：

强调开放与可复现；
数据质量与数据设计非常有代表性；
适合学术研究与开源社区继续扩展；
在 grounding、pointing、视觉问答等方面有较强潜力。

局限：

结构创新不如 Qwen2-VL 和 SAM 2 那样突出；
更依赖高质量数据工程；
对工业级闭源系统的综合能力仍有差距空间。

4.5 适用场景

Molmo 更适合：

开源多模态训练研究
grounding / pointing 类视觉任务
图文问答与描述任务
开放数据集构建与训练配方研究
机器人或 GUI agent 中的“指向-理解”接口设计

五、三者对比分析

5.1 研究目标对比

模型	主要目标	核心方向
Qwen2-VL	通用图像/视频理解与生成	动态视觉 token + 统一多模态建模
SAM 2	图像/视频分割基础模型	Promptable segmentation + streaming memory
Molmo	开放、可复现的强多模态模型	开放数据 + 开放训练配方

5.2 关注重点对比

维度	Qwen2-VL	SAM 2	Molmo
核心任务	图文理解、视频理解、问答	图像/视频分割	图文问答、描述、grounding
是否生成文本	是	否	是
是否支持视频	是	是	部分支持扩展
关键创新	动态分辨率、M-RoPE	streaming memory	PixMo 数据体系
更偏模型结构还是数据体系	结构 + 表示	结构 + memory	数据 + 训练体系

5.3 方法论层面总结

从方法论层面看，三者分别代表 2024 多模态视觉的三种典型答案：

Qwen2-VL：重新设计视觉 token 化与多模态位置编码，提升通用视觉语言建模能力。
SAM 2：通过 memory 机制把静态分割能力扩展到视频时序场景。
Molmo：通过开放数据、开放训练流程和高质量标注设计，推动开源多模态体系真正走向可复现。

六、总结

总体来看，Qwen2-VL、SAM 2 和 Molmo 并不互相替代，而是分别回答了 2024 年多模态视觉中的三个关键问题：

如何更高效地统一建模图像、视频与文本？
Qwen2-VL 的答案是：动态视觉 token 与统一多模态位置编码。
如何把分割基础模型从图像扩展到视频？
SAM 2 的答案是：通过 streaming memory 实现跨帧信息传播。
如何让开源多模态模型真正可复现、可持续演进？
Molmo 的答案是：开放数据、开放配方与高质量训练体系。

因此，2024 年多模态视觉的重要进展，不只是模型“看得见图像”，而是进一步朝着更强通用性、更强时序性和更强开放性的方向演进。这也意味着未来多模态视觉研究的竞争焦点，将不仅在于单一模型结构创新，还将同时取决于视觉 token 化策略、时序 memory 设计、训练数据质量与开放生态建设。