多模态大模型评估新突破：M3STR基准带你探索抽象视觉知识理解奥秘-平芜编程栈

本文提出M3STR新基准评估多模态大模型对抽象结构化知识的视觉理解能力。设计计数、检测和补全三种任务，评估26个主流MLLMs。发现当前模型在抽象视觉理解上存在显著缺陷，小模型表现接近随机猜测，开源模型整体优于闭源API。研究表明模型缩放定律适用，但MLLMs缺乏对视觉知识表示的鲁棒抽象理解能力。

一、摘要

多模态大语言模型（MLLM）代表了超越传统大语言模型（LLM）的进化飞跃，具备多模态内容理解和生成能力，现已成为多媒体领域的研究前沿。通过使用连接器桥接异构多模态表示空间的差距，诸如Qwen2.5-VL、LLaVA等MLLMs能够处理不同模态的信息并解决多样的多模态任务。

如上图所示，目前已涌现出许多基准来评估MLLMs的多维能力，这些基准涵盖了关于自然场景、肖像、各种生物及现实世界物体的图像。其他一些MLLM基准则建立在包含数学、代码和图表等内容的合成图像上。然而，现有的基准范式明显忽视了一个关键的MLLM能力维度：对包含高度抽象结构化知识的视觉内容的理解与解释。这类结构化表示——以思维导图和知识图谱（KG）为例——在日常生活中无处不在。与传统图像不同，这些结构同时编码了具体的视觉实体和复杂的关系语义。MLLMs不仅需要识别实体，还需解读其间的关联拓扑结构和抽象连接，这本身是抽象且困难的任务。这种能力对MLLMs至关重要，因为它从根本上反映了模型通过视觉模态内化结构化世界知识的能力，这是开发能够模拟人类概念理解能力的人工通用智能的基础要求

为应对当前研究的不足，我们提出了一个评估MLLMs的新视角：结构化知识的抽象视觉理解。我们构建了一个名为M3STR（意为“怪物”）的新基准，即用于结构化理解的多模态思维导图。M3STR以多模态知识图谱（MMKG）为数据源，将多样化的结构化人类知识封装在图像输入中。上图展示了一个图像样本的简单示意，本文中称之为多模态思维导图。我们在M3STR基准中设计了三种任务类型：计数、检测和补全，用以从不同层面评估MLLMs对多模态思维导图的理解能力。这些任务进一步细分为多个子任务，专门针对实体和关系的理解。我们提出了一套流程来合成多模态思维导图，整合了结构化知识和多模态内容。首先，我们从大规模MMKG中采样子图实例；然后，对这些子图进行特定任务的修改；最后，使用可视化API将包含多模态信息的子图转换为图像。此外，我们还设计了特定任务的提示模板来引导MLLMs。我们的数据与现有基准的核心区别在于，图像包含更抽象的实体信息及其关系拓扑。我们对26个主流MLLMs进行了全面评估。

除评估排行榜外，我们还进行了一系列探索性实验，以检验多模态思维导图中实体特定的多模态信息是否影响最终预测。基于实验结果，我们得出若干关键见解，表明当前MLLMs仍难以理解视觉模态中的高级抽象。这些发现揭示了MLLMs存在显著的能力缺陷，并指明了未来改进的潜力与方向。总之，本文的贡献主要包括三方面：

我们提出了一个全新视角，用于评估MLLMs对结构化知识的抽象视觉理解能力，该领域此前尚未被探索。
我们构建了一个名为M3STR的新基准，并提供了新的构建流程，包含多样化的任务类型和数据分布。
我们在M3STR上对26个主流MLLMs进行了全面评估。我们有趣的发现表明，当前MLLMs在抽象内容理解方面仍面临困难。

二、方法

本文旨在设计一个新基准，从一个新角度衡量当前MLLMs的能力：即理解包含高度抽象的结构化知识的能力。MMKGs被选为数据源，因为它们不仅包含大量知识，而且以半结构化形式组织。要视觉化解读KG中的信息，MLLMs不仅需理解每个具体实体，还需掌握其间的关系拓扑。与自然场景中物体通常遵循物理和空间规律不同，KGs的视觉表示形成了更抽象、更复杂的图结构，包含多模态实体信息和关系边。下文将描述如何构建此基准并报告实验结果。

M3STR基准数据集概述

上图展示了我们为MLLMs结构化理解所构建的多模态思维导图基准（M3STR）的组成结构。我们设计了三种任务类型，从不同层面评估MLLMs的抽象视觉理解能力：

任务1：计数：要求MLLMs计算图中实体和关系的数量。此任务属于粗粒度对象识别，评估MLLM对MMKGs的表层识别能力。
任务2：检测：要求MLLMs判断给定的MMKG子图中是否存在事实异常，并回答“是”或“否”。要正确回答，MLLM必须对嵌入MMKG中的常识信息做出更高级别的判断。
任务3：补全：要求模型在给定局部上下文的情况下，预测MMKG中缺失的实体或关系。此任务类似于知识图谱补全（KGC），成功预测能体现MLLM的理解和简单推理能力。

同时，上图展示了各任务的基本形式和预期输出格式。每种任务还包含若干侧重于实体或关系的子任务，共计7个子任务。所有任务均以从MMKG采样的子图作为输入，该子图被可视化为图像I，并配以特定任务的问题提示Q，引导MLLM产生答案A。

M3STR构建过程

M3STR基准的构建流程主要包括三个步骤：子图采样、数据实例构建和视觉翻译。我们使用经典的FB15K-237 MMKG作为原始数据源。整体流程如上图所示。

子图采样：从MMKG KG中随机采样一个子图 G’ = (E’, R’, T’)，其中E’和R’是原始集合的子集，T’包含这些实体和关系间的所有三元组。采样从起始实体e开始，通过随机采样器（如深度优先或广度优先搜索）直至获得包含K个实体的子图。
数据实例构建：根据特定任务对采样的子图G’进行修改，得到修改后的子图G’'和黄金答案A。对于计数任务，不修改子图，直接计算实体或关系数量作为答案。对于检测任务，以一定概率修改子图中的某个实体或关系（引入错误），生成含异常（正样本，答案为“是”）和不含异常（负样本，答案为“否”）的实例，比例控制在1:1。对于补全任务，随机掩码子图中的一个实体或关系，并提供四个干扰选项，要求模型预测被掩码部分。
视觉翻译：使用GraphViz等可视化API将修改后的子图G’'转换为图像I。在此过程中，实体的图像和实体/关系的文本描述均被整合到最终的可视化结果中，生成包含图结构、实体视觉信息和文本描述的多模态图像。同时，为每个子任务准备特定的提示模板作为问题Q。对于补全任务，提示中还包含选项信息。最终得到数据实例 (I, Q, A)。

评估方案

每个数据实例格式统一为 (I, Q, A)。评估时，向MLLM提供图像I和问题提示Q，获得输出A*。对于特定子任务t，MLLM的得分S是生成答案与黄金答案的准确率。MLLM的总体得分S是7个子任务得分的平均值，用以衡量其在抽象视觉推理任务上的综合能力。

三、实验

实验

本节展示M3STR基准在多种MLLMs上的详细实验与评估结果。我们的分析旨在回答以下三个研究问题（RQ）：

RQ1：主流MLLMs在M3STR的三个任务上表现如何？哪个模型在抽象视觉推理任务上达到了最优？
RQ2：MLLMs能否充分理解视觉上下文中的多模态思维导图？哪种模态对最终输出贡献最大？
RQ3：MLLMs输出的答案分布如何？是否存在特定偏差或缺陷？

实验设置

采用的MLLMs

我们评估了23个主流开源MLLMs，包括InstructBLIP、LLaVA系列、Chameleon、MiniCPM-V系列、Deepseek-VL系列、InternVL-2.5系列、Phi-vision系列、Qwen2-VL系列和Qwen2.5-VL系列，模型参数规模从1B到72B不等。同时，还评估了3个著名的支持多模态输入的API模型：GPT-4V-turbo、GPT-4o-mini和Gemini-2.5-pro。

评估细节

模型权重从HuggingFace Model Hub和ModelScope获取，使用transformers和vLLM库进行推理。温度为0.0以确保结果可重现。对于vLLM支持的模型，使用引导解码约束输出范围。所有实验在配备NVIDIA A800 GPU的Linux服务器上进行。

主要实验结果

下表总结了26个主流MLLMs的主要评估结果，展示了各任务准确率、总体得分及排名。

视角一：开源MLLMs在M3STR上表现领先

Qwen2.5-VL-72B取得了最优的总体成绩。Qwen系列模型表现突出，其他开源模型如InternVL、Phi和DeepSeek-VL也具竞争力。而著名的闭源API模型如GPT-4V/GPT-4o和Gemini排名相对靠后。Qwen模型包揽前五名中的四席，显示出在该基准上的明显优势。例如，GPT-4V-Turbo在26个模型中排名第20，性能落后于多数开源模型。这表明开源MLLMs在理解和推理视觉MMKGs方面通常优于闭源模型。

视角二：模型缩放定律依然适用

缩放定律在M3STR的新任务上得到验证。在Qwen2-VL和Qwen2.5-VL系列中，随着模型规模增大（如从3B/7B到72B），任务性能显著提升。例如，在任务1（实体计数）中，Qwen2.5-72B相比Qwen2.5-7B有显著提升。这表明模型缩放带来收益，尤其在7B到72B参数区间改善明显。此外，模型的代际演进（如MiniCPM版本迭代、Phi-3到Phi-3.5、Qwen2-VL到Qwen2.5-VL）也持续带来性能进步，反映了模型架构、数据、训练策略等方面的有效优化。

视角三：当前MLLMs仍难胜任抽象视觉理解

实验结果清楚表明，当前MLLMs，尤其是较小模型，在抽象视觉理解上存在严重局限。许多模型在特定子任务上的表现接近随机猜测。例如，最简单的任务1（实体计数），半数被评估MLLMs的准确率低于30%，表明其基本视觉感知存在缺陷。任务2（异常检测）挑战更大，近乎所有MLLMs表现接近或差于随机水平。只有Qwen2/2.5-VL-72B和部分API模型在混合检测设置中略优于随机猜测，但准确率仍不理想。这与MLLMs中常见的幻觉问题形成对比：模型在任务3（多项选择题形式）上表现相对较好，许多在零样本条件下准确率超80%。这表明尽管在跨模态对齐（能从结构化选项中选答案）方面有进展，但当前MLLMs严重缺乏对描述结构化知识（含多模态实体和关系拓扑）的图像进行细粒度理解的能力。

模态贡献分析

我们进一步分析了M3STR基准中不同模态的贡献。由于合成的视觉MMKG图像包含像素中的图像和文本，信息丰富且复杂，我们探究MLLMs是否有效利用了所有模态。

我们生成了信息量减少的基准数据集（如移除实体图像或文本）进行实验，并与纯文本输入的KG描述进行对比。结果揭示了反直觉的现象：移除部分视觉元素后，许多MLLMs的准确率反而提升。例如，在任务1中，Qwen2.5-VL-7B移除实体图像后性能提升159%，甚至超过某些72B模型。类似模式见于LLaVA和MiniCPM-V架构。只有Qwen2.5-72B等较大模型符合直觉。这表明冗余视觉细节可能干扰较小MLLMs的实体枚举任务。在补全任务中，此现象有所缓解但仍存在。更显著的是，用文本KG描述替代视觉MMKG显著提升了MiniCPM和Qwen模型的准确率，暗示其对文本知识表示的理解优于视觉形式（部分原因可能是FB15K-237作为知名数据集已存在于预训练语料中）。

这些观察表明一个根本局限：当前MLLMs缺乏对视觉知识表示进行抽象结构理解的鲁棒能力。面对复杂视觉形态时，较小模型会出现认知超载。文本输入的持续优势表明，尽管有多模态架构，视觉处理能力仍远逊于语言推理。

我们进一步检验了多模态适配对底层LLM骨干的影响。如图5所示，多模态适配通常带来显著优势。多数MLLMs即使在纯文本KG输入上也优于其基础LLMs，表明多模态训练不仅增强了跨模态能力，也提升了在M3STR上的文本推理能力。唯一例外是Qwen2.5-72B在任务3上，其强大的LLM骨干可能削弱了可见增益。总体而言，多模态扩展有效提升了模型的抽象理解能力。

案例研究

为直观展示不同模型的性能差异，我们绘制了部分MLLM预测结果的混淆矩阵。任务1的结果显示明显的性能分层：强模型（如Qwen2.5-VL-72B）的错误预测接近真实计数，而弱模型（如LLaVA）则呈现混乱和有偏的答案分布，体现了细粒度的能力差距。任务2的分析进一步暴露了严重缺陷：大多数MLLMs表现出严重的预测偏差，系统性地默认输出特定类别而非随机猜测，反映了其异常检测能力的严重不足。尽管Qwen2.5-VL-72B在局部异常检测上表现出稍好的判断力，但其整体性能仍不理想。这些结果共同揭示了MLLMs存在持续的幻觉倾向和在视觉KGs中进行关系推理的惊人缺陷。

四、结论

本文引入了一个新的视角来评估MLLMs对包含多模态实体信息和关系拓扑的结构化知识的抽象视觉理解能力，这是一个此前未被深入探索的领域。我们构建了M3STR基准及其新构建流程。通过使用M3STR进行全面评估，我们从结果中发现了重要见解，表明当前MLLMs在有效理解抽象内容方面仍面临挑战。这些发现凸显了未来在MLLM架构和方法论上进一步推进的必要性，特别是在其理解和生成复杂、结构化关系知识的能力方面，这也是发展多模态人工通用智能的未来方向。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**