这项由新加坡国立大学研究团队主导的研究,以预印本形式于2026年5月14日发布在arXiv平台,论文编号为arXiv:2605.14607,题为《ViMU: Benchmarking Video Metaphorical Understanding》。研究聚焦一个听起来颇为哲学的问题:当一台AI模型盯着一段视频看完,它真的"看懂"了吗?
每个人都有过这样的体验——看到一段别人发来的短视频,里面一个人在舞台上跳舞,但一旦留意到背景音乐是德国军歌、画面角落贴着一只戴帽子的柴犬表情包,整件事的含义就发生了根本性转变,从一段普通舞台表演变成了一个带有政治冒犯意味的隐晦段子。这种"表面上是A,实际上说的是B"的视频,在当今互联网上无处不在——表情包视频、嘲讽剪辑、网络梗、社会批评类短视频,几乎都在用这种方式表达。
然而,当前绝大多数的AI视频理解模型,更像是一个只认字面意思的学生,能告诉你"画面里有一个女孩在跳舞,背景有几个人在看",却无法感知这段视频真正想说什么。研究团队将这种能力的缺失称为"表层理解与深层潜台词理解"之间的鸿沟,并由此构建了一个全新的基准测试数据集,命名为ViMU,即"视频隐喻理解"(Video Metaphorical Understanding)。这是学术界首个专门用来评估AI模型在视频潜台词理解方面能力的系统性基准。
---
一、为什么看懂一段视频比你以为的难得多
表面上,视频理解这件事似乎已经被AI做得相当不错了。识别画面里的物体?没问题。判断视频里发生了什么动作?也行。搞清楚时间顺序?基本可以。但研究团队指出,这些能力加在一起,仍然只能让模型理解"发生了什么",而无法理解"这意味着什么"。
以论文中给出的一个真实例子为例:一段视频的画面内容是一个卡通场景,牛顿坐在树下读书,旁边有个角色高举苹果,随后镜头切换到一个人在田野里张开双臂奔跑,活像一只在飞的鸟。配乐是汉斯·季默创作的《星际穿越》原声曲"Cornfield Chase"。如果只看画面,可能会觉得这是一段莫名其妙的视频。但真正的笑点在于:苹果没有落在牛顿头上——换句话说,牛顿没有发现万有引力定律,人类因此没有搞清楚重力是什么,所以那个人只能像傻瓜一样学鸟飞。这是一个通过反事实逻辑构建的荒诞段子,笑点完全依赖于观众提前知道"苹果砸牛顿"这个科学史掌故,以及能读出视频在用什么样的荒诞逻辑建立因果联系。
对人类来说,这种解读几乎是瞬间完成的,因为我们有足够的文化背景知识和社会经验。但对AI来说,它需要同时完成好几件事:识别牛顿这个形象及其文化含义,理解苹果"没有落下"的反事实意义,感知配乐带来的情绪铺垫,还要将这些零散信号综合成一个连贯的解读。这种多层次的综合判断,正是当前AI模型普遍欠缺的能力。
正是因为这种能力的缺失在现有研究中没有被系统性地测量和记录,研究团队决定从头搭建一套专门的测试框架。
---
二、这套测试是怎么设计出来的
构建ViMU的过程,与其说是在"出题",不如说更像是在筛选和锻造。研究团队从YouTube、Bilibili和TikTok等平台上收集了超过500段视频,这些视频的共同特征是:表面内容和实际含义之间存在显著落差,且这种落差依赖于文化背景、社会经验或特定语境才能被识别。
整个构建流程被设计成一个多阶段的流水线。第一步是从原始视频中提取多模态证据,也就是均匀采样出若干帧画面,同时提取音频转录文字,形成一份对每段视频的"可观测证据包"。第二步,研究团队使用一个高级语言模型(具体是GPT-5.4)对每段视频进行语义标注,让模型区分"表面内容"和"潜在含义",并将含义分解成多个维度——用了什么修辞手法、传达了什么社会态度。
完成标注后,进入第三步:针对每段视频生成对应的问题和参考答案。这里有一个核心约束,也是ViMU区别于其他类似测试集的最重要设计原则——所有问题必须是"无提示"的(hint-free)。什么叫无提示?就是问题本身不能暗示答案的方向。比如,如果视频里那个女孩的动作像在模仿纳粹式敬礼,你不能直接问"这个动作是在模仿什么政治符号",因为这种问法已经把关键线索藏在问题里了。正确的问法应该是"这段视频整体上想表达什么",让模型自己去推断。
这个无提示设计极大地增加了任务难度,也更贴近真实情境:当你在网上刷到一段视频时,没有任何人预先告诉你"注意这个视频有隐含含义",你必须凭借自己的感知和判断来理解它。
生成初版问答对之后,流程进入第四步:迭代验证与修改。另一个语言模型会检查每个问题是否真的无法仅靠表面内容回答,是否确实需要理解隐含含义,难度是否适当,金标答案是否与视频的实际意图一致。如果问题不合格,会被打回重写,最多允许三轮修改,修改后仍不合格的则直接丢弃。整个数据集的最终质量还经过了五位人类专家的审核把关。
经过这套严苛流程,最终保留下来了588段视频,对应2352个问题,分布在四项任务之中。
---
三、四项考题,分别考察不同层次的理解力
研究团队将视频潜台词理解拆解成四个维度,每个维度对应一类具体问题,像是一组从不同角度检视同一件雕塑的灯光。
第一项任务叫"开放性解读",是四项任务里最难的,也是最接近人类真实体验的。给模型看一段视频,只问一个问题:"这段视频整体上想表达什么?"没有选项可以选,完全考察模型自主生成解读的能力。由于是开放性问答,评分方式也比较特殊,需要再用另一个AI模型来充当"评卷老师",根据一套打分标准来判断模型的回答是否捕捉到了视频的核心意图、是否识别出了关键的修辞信号、是否准确理解了社会含义,同时还会扣除"编造内容"和"只说表面内容而没看出深意"两项罚分,满分9分。
第二项任务叫"修辞机制识别",是一道五选多的选择题。视频的隐含含义是通过什么方式构建的?研究团队将修辞手法归纳成五个大类:直接字面表达、对立/反常(包括反转、荒诞、前后矛盾等)、态度/语气类修辞(包括讽刺、反语、面无表情式幽默、嘲讽等)、放大/风格化(包括夸张、模仿等)、以及隐晦/编码社会框架(包括影射、刻板印象调用、暗语等)。模型需要从这五个选项中勾选所有适用的类别。
第三项任务叫"社会价值信号识别",同样是五选多,但考察的是视频传达了什么社会态度。五大类分别是:中性/无社会信号、情感态度、社会评价/贬低、规范与价值框架、以及身份/意识形态信号。举个例子,一段嘲讽某个群体的视频,不仅可能用了"对立/反常"这种修辞手法,还可能同时带有"社会贬低"和"歧视或偏见"的社会价值信号。
第四项任务叫"证据定位",问的是"你的理解依据是什么"。每段视频的理解可能依赖于五类证据:画面帧、可见文字(比如字幕或贴在视频上的文字)、剪辑方式(比如特定的剪辑节奏或蒙太奇手法)、音频转录(即对话或歌词内容)、以及音频语气(配乐或说话者的情绪语气)。模型需要正确勾选出支撑其解读的那些证据来源。
---
四、数据集里装了什么样的视频
为了让测试足够全面,研究团队在数据集设计上刻意追求多样性,从两个维度来衡量——修辞机制的分布和社会价值信号的分布。
从修辞机制来看,数据集里占比最高的是"对比"(约20%),其次是"面无表情式幽默"(约16%)、"影射"(约13%)、"夸张"(约11%)、"荒诞"(约10.5%)、"引诱反转"(约8.5%)、"嘲讽"(约6%)、"模仿/戏仿"(约6%),以及占比较低的"纯字面"、"反语"、"刻板印象调用"、"讽刺"、"角色反转"等类型。
从社会价值信号来看,约32%的视频实际上不携带明显的社会价值信号,剩余视频中"性暗示"(约21%)、"羞辱"(约15%)、"负面情绪"(约11%)、"蔑视"(约4.4%)、"违反社会规范"(约3.6%)、"歧视或偏见"(约3.2%)等依次出现。
在证据来源的分布上,视频画面帧是最主要的证据来源,约占28%,其次是可见文字(约26%)、剪辑方式(约24%)、音频转录(约17%),以及音频语气(约6%)。这个分布清楚地说明了理解这类视频为什么必须综合多种信息来源,单靠画面是不够的。
在视频所指向的"目标"方面,约31%的视频指向特定个人,约29%没有明确指向目标,约16%指向"自我"(比如自嘲类内容),其余则涵盖了制度机构、种族族裔群体、国籍群体、外貌体型、性别群体、阶级或职业、性取向相关群体、年龄群体等十几种社会分类。
---
五、测试了哪些AI模型,成绩怎么样
研究团队用ViMU测试了16个当前主流的多模态大语言模型,涵盖开源和闭源两类。开源模型中包括Ministral-8B、Ministral-14B、Gemma-3-4B、Gemma-3-27B、Qwen3-VL-32B和Qwen3.5-27B;闭源模型中包括Claude-3-Haiku、GLM-4.5v、Grok-4.1-Fast、Gemini-3-Flash-Preview、Mimo-V2-Omni、Seed-2.0-Lite、o4-mini、GPT-4.1-nano、GPT-5.2和GPT-5.4-mini。所有模型都在零样本条件下接受测试,即没有任何"练习题"预热,直接上场作答。
成绩分布呈现出一个令人深思的格局。在开放性解读任务上,GPT-5.2表现最好,得分约73%,这个成绩听起来还不错。然而,当同一批模型被要求精确识别修辞机制时,GPT-5.2的得分骤降到约17%;在社会价值信号识别上,它也只有约21%。表现最好的开放性解读能力,并没有自动转化为更精准的结构化理解。
反过来,在修辞机制和社会价值信号这两项任务上,表现相对较好的是Grok-4.1-Fast(约35%和29%)、Gemini-3-Flash-Preview(约34%和28%)以及o4-mini(约33%和30%),但这些模型在开放性解读上的得分又不如GPT-5.2。换句话说,"能说清楚视频在讲什么"和"能精确归类用了什么修辞"是两种不同的能力,在不同模型身上呈现出截然不同的优劣组合。
从综合平均分来看,所有16个模型的全任务平均分都低于50%,绝大多数在35%到47%之间。其中,表现最好的是o4-mini(46.91%)和Grok-4.1-Fast(46.28%),开源模型中Qwen3.5-27B(45.91%)表现最为出色;而表现最差的则是GPT-4.1-nano(20.94%)和Claude-3-Haiku(22.90%)。值得一提的是,闭源模型并不总是优于开源模型,Qwen3.5-27B就超过了Claude-3-Haiku和GPT-4.1-nano,这打破了"花钱买API就更强"的直觉预期。
---
六、模型出错的方式揭示了什么
研究团队并不满足于只看总分,还深入拆解了模型是"怎么错的",这些分析提供了比分数本身更丰富的信息。
在证据定位任务上,有一个观察特别有意思。研究团队发现,绝大多数模型倾向于"保守"——也就是说,它们预测的证据来源数量,比实际正确答案要少。这种保守性有时是无害的,但过于保守的模型(也就是几乎不愿意勾选任何选项的那些)往往也是整体表现最差的。进一步分析错误类型时,模型的错误大多是"漏选"——要么完全没选到正确答案,要么只对了一部分,而不是"多选了错误的答案"。这说明模型的主要问题不是乱猜,而是看不全——它们能感知到一两个明显的证据来源,却常常忽略了更隐蔽的编辑手法或音频信号。
具体来看证据类型的遗漏模式,与编辑方式相关的证据(比如特定的剪辑节奏、蒙太奇技巧)是被遗漏最多的,而音频相关的证据相对来说被遗漏得较少。这说明当前模型对"视频是怎么剪的"这个层面的信号最为迟钝。
在修辞机制识别任务上,研究团队发现了一个系统性的偏向:几乎所有模型都倾向于过度勾选"A:字面/直接"这个选项,同时严重低估"E:隐晦/编码社会框架"这个选项。这种偏向反映了模型的一种"安全默认"心理——面对难以判断的内容,模型倾向于选择最保险、最中性的解释,而不是深入探究其社会编码含义。
在社会价值信号识别任务上,类似的偏向表现为:几乎所有模型都大量过度勾选"B:情感态度",而低估"E:身份/意识形态信号"。宽泛的情绪感知成为了模型的"万能糊弄答案",而真正需要识别特定社会群体或政治立场信号的能力,则普遍缺失。
通过对模型错误特征进行主成分分析(一种把复杂数据压缩成可视化图形的统计方法),研究团队发现不同模型家族之间存在明显的"行为聚类"——来自同一公司或同一研究团队的模型,在犯错模式上高度相似,这说明不同AI系统在理解视频含义时,有各自独特的"盲点",这些盲点往往来自于它们在训练时共享的数据偏好和架构设计。
---
七、给AI出卷子,然后给它解答加提示,有用吗
为了进一步探究模型的局限性来自哪里,研究团队还做了一个对比实验:在让模型回答修辞机制和社会价值信号问题时,分别测试"不给任何解释"和"附上每个选项的详细定义说明"两种情况,看额外的分类定义能否帮助模型选得更准。
结果是:有用,但有限。加了定义说明之后,部分模型在局部选项上的预测确实有所调整,但整体结构性偏向并没有得到根本改变——模型对那些默认选项的偏好依然存在,对隐晦社会信号的系统性低估也没有消失。也就是说,这类问题不是"告诉模型定义就能解决"的问题,而是模型在更深层次上缺乏对这类含义的感知能力。
---
八、这项研究的意义与局限
ViMU最核心的贡献,在于它填补了视频理解评估领域中一个被长期忽视的空白。以往的测试集,要么考察物体识别和动作理解,要么考察时序逻辑,要么只聚焦于幽默理解或图片梗(但图片梗无法捕捉音频、剪辑节奏、时序等视频特有的信号)。ViMU是第一个同时满足以下几个条件的测试集:聚焦于视频潜台词而非字面内容、覆盖多种修辞机制和社会价值信号、要求无提示推断(模型不能从问题中获取答案方向)、包含多模态证据(画面、音频、文字、剪辑)、同时提供开放性和选择性问答两种评估形式。
不过研究团队也坦率承认了这套测试集的局限性。潜台词的理解在本质上是主观的,不同文化背景和社会经验的人对同一段视频的解读可能差异极大,标注过程中残留的偏见和模糊性是无法完全消除的。此外,数据集中包含了一些敏感甚至令人不适的内容——这是测试"AI能否理解社会隐含意义"这件事的代价,因为现实中的此类视频本身就可能涉及冒犯性表达。研究团队明确表示,ViMU仅设计用于评估,不应被用作训练数据。
---
说到底,这项研究在提醒我们一件事:让AI读懂一段视频,和让AI真正理解一段视频,是两件截然不同的事。前者是技术上已经接近成熟的能力,后者则触及了一个更根本的问题——AI能否像人类一样,在文化语境和社会经验的支撑下,感知那些"没有说出口"的含义。
当前最强的商业AI模型,在这件事上平均只做对了不到一半。这不是说这些模型很差,恰恰相反,它们在许多任务上已经表现得相当出色。但ViMU的价值就在于,它精确地划出了一条线,清晰地告诉我们:这条线的另一边,还有很长的路要走。对于真正想让AI参与内容审核、文化分析、舆情理解等现实任务的应用场景来说,这条线的位置,至关重要。
对于普通读者来说,这项研究最直接的含义可能是:下次你看到一段AI生成的视频解读,别想当然地认为它"懂了"。它描述的,可能只是画面本身,而不是视频真正想说的那件事。感兴趣的读者可以通过arXiv编号2605.14607查阅完整论文,进一步了解测试设计和实验细节。
---
Q&A
Q1:ViMU测试集和普通视频理解测试集有什么不同?
A:普通视频理解测试集主要考察模型能否识别画面里的物体、动作和时间顺序,而ViMU专门测试模型能否理解视频"表面内容之外"的隐含含义,比如讽刺、影射、社会批评等。ViMU还要求问题"无提示",即问题本身不能暗示答案方向,更贴近真实观看体验。
Q2:ViMU基准测试中表现最好的AI模型是哪个?
A:在综合全部四项任务的平均分上,o4-mini以46.91%的成绩排名第一,其次是Grok-4.1-Fast(46.28%)和开源模型Qwen3.5-27B(45.91%)。在开放性解读单项任务上,GPT-5.2得分最高,约为73%,但它在修辞机制识别上仅有约17%,说明不同能力之间存在明显的不平衡。
Q3:AI模型在ViMU上最常犯的错误是什么?
A:模型最常见的错误模式是"选择最安全的默认答案"。在识别修辞机制时,模型倾向于过度勾选"字面/直接"这个最保守的选项;在社会价值信号识别上,则倾向于依赖宽泛的"情感态度"作为万能答案,而不能精准识别更隐晦的社会编码信号,比如身份认同或意识形态暗示。