一、概述
2024 年多模态视觉方向的代表性工作,已经不再停留在“把图像输入接到大语言模型”这一初级阶段,而是沿着更明确的三条路线持续演进:
- 通用视觉语言模型(VLM)路线:以Qwen2-VL为代表,重点解决图像、视频、文本统一建模问题,尤其关注动态分辨率、多模态位置编码和长视频理解。
- 视觉基础模型路线:以SAM 2为代表,重点解决从单图分割到视频时序分割的能力扩展问题。
- 开放多模态体系路线:以Molmo为代表,重点解决开源多模态模型高度依赖闭源蒸馏数据的问题,强调开放数据、开放训练配方和开放评测体系。
从研究趋势上看,这三类工作分别对应通用理解能力、时序视觉能力、开放生态能力,共同构成了 2024 年多模态视觉的核心进展。
二、Qwen2-VL:面向图像与视频统一建模的通用视觉语言模型
2.1 研究痛点
早期视觉语言模型在输入端通常采用固定分辨率策略,即将所有图像统一缩放到预设尺寸,再转化为固定数量的视觉 token。该方案存在以下几个突出问题:
- 高分辨率图像细节丢失:文档、表格、OCR 场景往往依赖局部细节,固定缩放容易损失关键信息。
- 不同图像复杂度利用率低:简单图像和复杂图像被分配相同数量的 token,不够高效。
- 图像与视频位置建模割裂:文本是一维序列,图像是二维空间,视频是三维时空,传统位置编码难以统一表达。
- 视频理解能力不足:许多模型只能处理静态图像,难以直接扩展到长视频理解和跨帧推理。
2.2 核心创新点
Qwen2-VL 的关键创新主要体现在以下两个方面:
(1)Naive Dynamic Resolution
不再强制将图像映射为固定数量的视觉 token,而是根据输入图像的分辨率、长宽比和内容复杂度,动态生成不同数量的视觉 token。
这一机制显著提升了复杂视觉内容建模能力,尤其适用于文档、图表、长图和高分辨率场景。
(2)M-RoPE(Multimodal Rotary Position Embedding)
将文本的一维位置、图像的二维位置和视频的三维时空位置纳入统一的位置编码框架,使模型可以在同一主干中处理文本、图像和视频。
2.3 算法方案
Qwen2-VL 的算法流程可以概括为以下四步:
动态视觉 token 化
根据图像/视频输入尺寸与内容复杂度,自适应地切分并生成视觉 token,而不是固定 patch 数量。统一多模态位置编码
使用 M-RoPE 为文本 token、图像 token、视频 token 注入统一的位置关系。视觉-语言联合建模
将视觉 token 与文本 token 一起送入语言模型主干进行统一建模和推理。生成式输出
通过自回归解码完成图像描述、文档问答、OCR 理解、视频问答等任务。
2.4 优势与局限
优势:
- 支持图像与视频统一建模;
- 动态分辨率机制提升了复杂视觉输入利用率;
- 对文档理解、OCR、多尺度图像更友好;
- 更适合长视频、多语言图文任务。
局限:
- 动态 token 数会带来推理资源波动;
- 高分辨率和长视频场景下显存压力仍然较大;
- 作为通用 VLM,专门分割或精细定位能力并非其最强项。
2.5 适用场景
Qwen2-VL 特别适合以下任务:
- 图像描述与图文问答
- 文档理解、OCR 与表格解析
- 长视频理解与视频问答
- 多语言视觉语言任务
- 通用图文 agent 场景
三 SAM 2:从单图分割到视频时序分割的基础模型
3.1 研究痛点
SAM 1 证明了 promptable segmentation 的强大能力,即用户通过点、框、mask 等提示即可快速完成目标分割。然而,它主要聚焦于静态图像场景,难以直接应对视频中的以下问题:
- 跨帧目标一致性难保持
- 视频分割需要频繁人工交互
- 动态场景下目标外观变化明显
- 单帧分割结果难以向后续帧稳定传播
因此,核心问题变成:
如何将通用分割能力从单帧图像自然扩展到视频时序场景。
3.2 核心创新点
SAM 2 的关键创新主要有两点:
(1)Streaming Memory 机制
在视频处理中引入流式记忆模块,使模型可以利用历史帧中的目标状态、提示信息和分割结果,从而在当前帧中进行更稳定的预测。
(2)图像与视频统一分割框架
SAM 2 不再把图像和视频看成两个独立任务,而是将图像视作单帧视频,在统一架构下进行处理。
此外,SAM 2 还构建了大规模视频分割数据引擎,通过模型参与数据采集和修正,提升训练数据质量与规模。
3.3 算法方案
SAM 2 的整体流程可概括为:
输入提示(Prompt)
用户提供点、框、已有掩码等交互信号。当前帧视觉编码
视觉编码器提取当前帧的图像特征。历史状态读取
从 streaming memory 中读取前序帧的目标状态、提示轨迹和历史分割信息。当前帧分割预测
将当前帧特征与历史 memory 融合后,生成当前帧掩码。状态回写
将当前帧的关键状态更新回 memory,用于后续帧传播。
该流程使视频分割不再是“每帧从零开始”,而是“基于历史状态连续跟踪与修正”。
3.4 优势与局限
优势:
- 支持图像与视频统一处理;
- 适合交互式视频分割;
- 跨帧一致性更强;
- 可显著降低视频标注或修正成本。
局限:
- 更偏向分割任务,不是通用视觉语言模型;
- 对视频目标长时遮挡、剧烈形变仍有难点;
- 在复杂场景下 memory 管理与推理成本仍需平衡。
3.5 适用场景
SAM 2 适合以下任务:
- 视频目标分割
- 交互式视频标注
- 视频目标传播与 mask 跟踪
- 机器人视觉前端区域提取
- 视频编辑与内容抠图
四、Molmo:开放数据与开放训练配方驱动的多模态模型
4.1 研究痛点
2024 年很多开源多模态模型虽然开放了权重,但其训练过程往往依赖闭源模型生成的合成数据或蒸馏数据,导致以下问题:
- 训练来源不透明
- 研究社区难以真正复现
- 性能提升高度依赖闭源教师模型
- 开源多模态生态存在“表面开放、实则依赖闭源”的问题
Molmo 所要解决的核心问题是:
能否在不依赖闭源 VLM 蒸馏的前提下,构建真正开放、可复现且强性能的多模态模型体系。
4.2 核心创新点
Molmo 的创新重点不在复杂网络结构,而在于开放体系设计,主要包括:
(1)PixMo 数据体系
构建高质量开放图文数据,包括:
- 高细节图像描述数据
- 自由形式图像问答数据
- 2D pointing 数据
其中 2D pointing 数据尤为关键,因为它将视觉 grounding 从框、mask 等较重标注形式,转化为更轻量、更自然的点标注形式。
(2)Open Weights + Open Data + Open Recipe
Molmo 强调不仅开放模型参数,还尽可能开放数据来源、训练代码和训练流程,使研究者能够复现完整多模态训练路径。
4.3 算法方案
Molmo 的算法结构相对朴素,但工程设计非常扎实,可概括为四段式:
预处理器(Preprocessor)
对输入图像执行多尺度、多裁剪处理,以保留更多局部和全局视觉信息。视觉编码器(ViT Encoder)
对每个 crop 分别提取 patch-level 视觉特征。视觉语言连接器(Connector)
将视觉特征进行池化、映射后,对齐到语言模型 embedding 空间。解码式语言模型(Decoder-only LLM)
对视觉信息与文本提示进行联合建模,完成问答、描述、推理与 grounding。
此外,Molmo 还在训练细节上做了多项优化,例如:
- overlapping multi-crop 减少裁剪边界信息损失;
- 多层特征拼接提升视觉表达丰富度;
- 单图多标注训练提高样本利用效率。
4.4 优势与局限
优势:
- 强调开放与可复现;
- 数据质量与数据设计非常有代表性;
- 适合学术研究与开源社区继续扩展;
- 在 grounding、pointing、视觉问答等方面有较强潜力。
局限:
- 结构创新不如 Qwen2-VL 和 SAM 2 那样突出;
- 更依赖高质量数据工程;
- 对工业级闭源系统的综合能力仍有差距空间。
4.5 适用场景
Molmo 更适合:
- 开源多模态训练研究
- grounding / pointing 类视觉任务
- 图文问答与描述任务
- 开放数据集构建与训练配方研究
- 机器人或 GUI agent 中的“指向-理解”接口设计
五、三者对比分析
5.1 研究目标对比
| 模型 | 主要目标 | 核心方向 |
|---|---|---|
| Qwen2-VL | 通用图像/视频理解与生成 | 动态视觉 token + 统一多模态建模 |
| SAM 2 | 图像/视频分割基础模型 | Promptable segmentation + streaming memory |
| Molmo | 开放、可复现的强多模态模型 | 开放数据 + 开放训练配方 |
5.2 关注重点对比
| 维度 | Qwen2-VL | SAM 2 | Molmo |
|---|---|---|---|
| 核心任务 | 图文理解、视频理解、问答 | 图像/视频分割 | 图文问答、描述、grounding |
| 是否生成文本 | 是 | 否 | 是 |
| 是否支持视频 | 是 | 是 | 部分支持扩展 |
| 关键创新 | 动态分辨率、M-RoPE | streaming memory | PixMo 数据体系 |
| 更偏模型结构还是数据体系 | 结构 + 表示 | 结构 + memory | 数据 + 训练体系 |
5.3 方法论层面总结
从方法论层面看,三者分别代表 2024 多模态视觉的三种典型答案:
- Qwen2-VL:重新设计视觉 token 化与多模态位置编码,提升通用视觉语言建模能力。
- SAM 2:通过 memory 机制把静态分割能力扩展到视频时序场景。
- Molmo:通过开放数据、开放训练流程和高质量标注设计,推动开源多模态体系真正走向可复现。
六、总结
总体来看,Qwen2-VL、SAM 2 和 Molmo 并不互相替代,而是分别回答了 2024 年多模态视觉中的三个关键问题:
如何更高效地统一建模图像、视频与文本?
Qwen2-VL 的答案是:动态视觉 token 与统一多模态位置编码。如何把分割基础模型从图像扩展到视频?
SAM 2 的答案是:通过 streaming memory 实现跨帧信息传播。如何让开源多模态模型真正可复现、可持续演进?
Molmo 的答案是:开放数据、开放配方与高质量训练体系。
因此,2024 年多模态视觉的重要进展,不只是模型“看得见图像”,而是进一步朝着更强通用性、更强时序性和更强开放性的方向演进。这也意味着未来多模态视觉研究的竞争焦点,将不仅在于单一模型结构创新,还将同时取决于视觉 token 化策略、时序 memory 设计、训练数据质量与开放生态建设。