新加坡国立大学发布首个视频“潜台词“理解基准测试-平芜编程栈

这项由新加坡国立大学研究团队主导的研究，以预印本形式于2026年5月14日发布在arXiv平台，论文编号为arXiv:2605.14607，题为《ViMU: Benchmarking Video Metaphorical Understanding》。研究聚焦一个听起来颇为哲学的问题：当一台AI模型盯着一段视频看完，它真的"看懂"了吗？

每个人都有过这样的体验——看到一段别人发来的短视频，里面一个人在舞台上跳舞，但一旦留意到背景音乐是德国军歌、画面角落贴着一只戴帽子的柴犬表情包，整件事的含义就发生了根本性转变，从一段普通舞台表演变成了一个带有政治冒犯意味的隐晦段子。这种"表面上是A，实际上说的是B"的视频，在当今互联网上无处不在——表情包视频、嘲讽剪辑、网络梗、社会批评类短视频，几乎都在用这种方式表达。

然而，当前绝大多数的AI视频理解模型，更像是一个只认字面意思的学生，能告诉你"画面里有一个女孩在跳舞，背景有几个人在看"，却无法感知这段视频真正想说什么。研究团队将这种能力的缺失称为"表层理解与深层潜台词理解"之间的鸿沟，并由此构建了一个全新的基准测试数据集，命名为ViMU，即"视频隐喻理解"（Video Metaphorical Understanding）。这是学术界首个专门用来评估AI模型在视频潜台词理解方面能力的系统性基准。

---

一、为什么看懂一段视频比你以为的难得多

表面上，视频理解这件事似乎已经被AI做得相当不错了。识别画面里的物体？没问题。判断视频里发生了什么动作？也行。搞清楚时间顺序？基本可以。但研究团队指出，这些能力加在一起，仍然只能让模型理解"发生了什么"，而无法理解"这意味着什么"。

以论文中给出的一个真实例子为例：一段视频的画面内容是一个卡通场景，牛顿坐在树下读书，旁边有个角色高举苹果，随后镜头切换到一个人在田野里张开双臂奔跑，活像一只在飞的鸟。配乐是汉斯·季默创作的《星际穿越》原声曲"Cornfield Chase"。如果只看画面，可能会觉得这是一段莫名其妙的视频。但真正的笑点在于：苹果没有落在牛顿头上——换句话说，牛顿没有发现万有引力定律，人类因此没有搞清楚重力是什么，所以那个人只能像傻瓜一样学鸟飞。这是一个通过反事实逻辑构建的荒诞段子，笑点完全依赖于观众提前知道"苹果砸牛顿"这个科学史掌故，以及能读出视频在用什么样的荒诞逻辑建立因果联系。

对人类来说，这种解读几乎是瞬间完成的，因为我们有足够的文化背景知识和社会经验。但对AI来说，它需要同时完成好几件事：识别牛顿这个形象及其文化含义，理解苹果"没有落下"的反事实意义，感知配乐带来的情绪铺垫，还要将这些零散信号综合成一个连贯的解读。这种多层次的综合判断，正是当前AI模型普遍欠缺的能力。

正是因为这种能力的缺失在现有研究中没有被系统性地测量和记录，研究团队决定从头搭建一套专门的测试框架。

---

二、这套测试是怎么设计出来的

构建ViMU的过程，与其说是在"出题"，不如说更像是在筛选和锻造。研究团队从YouTube、Bilibili和TikTok等平台上收集了超过500段视频，这些视频的共同特征是：表面内容和实际含义之间存在显著落差，且这种落差依赖于文化背景、社会经验或特定语境才能被识别。

整个构建流程被设计成一个多阶段的流水线。第一步是从原始视频中提取多模态证据，也就是均匀采样出若干帧画面，同时提取音频转录文字，形成一份对每段视频的"可观测证据包"。第二步，研究团队使用一个高级语言模型（具体是GPT-5.4）对每段视频进行语义标注，让模型区分"表面内容"和"潜在含义"，并将含义分解成多个维度——用了什么修辞手法、传达了什么社会态度。

完成标注后，进入第三步：针对每段视频生成对应的问题和参考答案。这里有一个核心约束，也是ViMU区别于其他类似测试集的最重要设计原则——所有问题必须是"无提示"的（hint-free）。什么叫无提示？就是问题本身不能暗示答案的方向。比如，如果视频里那个女孩的动作像在模仿纳粹式敬礼，你不能直接问"这个动作是在模仿什么政治符号"，因为这种问法已经把关键线索藏在问题里了。正确的问法应该是"这段视频整体上想表达什么"，让模型自己去推断。

这个无提示设计极大地增加了任务难度，也更贴近真实情境：当你在网上刷到一段视频时，没有任何人预先告诉你"注意这个视频有隐含含义"，你必须凭借自己的感知和判断来理解它。

生成初版问答对之后，流程进入第四步：迭代验证与修改。另一个语言模型会检查每个问题是否真的无法仅靠表面内容回答，是否确实需要理解隐含含义，难度是否适当，金标答案是否与视频的实际意图一致。如果问题不合格，会被打回重写，最多允许三轮修改，修改后仍不合格的则直接丢弃。整个数据集的最终质量还经过了五位人类专家的审核把关。

经过这套严苛流程，最终保留下来了588段视频，对应2352个问题，分布在四项任务之中。

---

三、四项考题，分别考察不同层次的理解力

研究团队将视频潜台词理解拆解成四个维度，每个维度对应一类具体问题，像是一组从不同角度检视同一件雕塑的灯光。

第一项任务叫"开放性解读"，是四项任务里最难的，也是最接近人类真实体验的。给模型看一段视频，只问一个问题："这段视频整体上想表达什么？"没有选项可以选，完全考察模型自主生成解读的能力。由于是开放性问答，评分方式也比较特殊，需要再用另一个AI模型来充当"评卷老师"，根据一套打分标准来判断模型的回答是否捕捉到了视频的核心意图、是否识别出了关键的修辞信号、是否准确理解了社会含义，同时还会扣除"编造内容"和"只说表面内容而没看出深意"两项罚分，满分9分。

第二项任务叫"修辞机制识别"，是一道五选多的选择题。视频的隐含含义是通过什么方式构建的？研究团队将修辞手法归纳成五个大类：直接字面表达、对立/反常（包括反转、荒诞、前后矛盾等）、态度/语气类修辞（包括讽刺、反语、面无表情式幽默、嘲讽等）、放大/风格化（包括夸张、模仿等）、以及隐晦/编码社会框架（包括影射、刻板印象调用、暗语等）。模型需要从这五个选项中勾选所有适用的类别。

第三项任务叫"社会价值信号识别"，同样是五选多，但考察的是视频传达了什么社会态度。五大类分别是：中性/无社会信号、情感态度、社会评价/贬低、规范与价值框架、以及身份/意识形态信号。举个例子，一段嘲讽某个群体的视频，不仅可能用了"对立/反常"这种修辞手法，还可能同时带有"社会贬低"和"歧视或偏见"的社会价值信号。

第四项任务叫"证据定位"，问的是"你的理解依据是什么"。每段视频的理解可能依赖于五类证据：画面帧、可见文字（比如字幕或贴在视频上的文字）、剪辑方式（比如特定的剪辑节奏或蒙太奇手法）、音频转录（即对话或歌词内容）、以及音频语气（配乐或说话者的情绪语气）。模型需要正确勾选出支撑其解读的那些证据来源。

---

四、数据集里装了什么样的视频

为了让测试足够全面，研究团队在数据集设计上刻意追求多样性，从两个维度来衡量——修辞机制的分布和社会价值信号的分布。

从修辞机制来看，数据集里占比最高的是"对比"（约20%），其次是"面无表情式幽默"（约16%）、"影射"（约13%）、"夸张"（约11%）、"荒诞"（约10.5%）、"引诱反转"（约8.5%）、"嘲讽"（约6%）、"模仿/戏仿"（约6%），以及占比较低的"纯字面"、"反语"、"刻板印象调用"、"讽刺"、"角色反转"等类型。

从社会价值信号来看，约32%的视频实际上不携带明显的社会价值信号，剩余视频中"性暗示"（约21%）、"羞辱"（约15%）、"负面情绪"（约11%）、"蔑视"（约4.4%）、"违反社会规范"（约3.6%）、"歧视或偏见"（约3.2%）等依次出现。

在证据来源的分布上，视频画面帧是最主要的证据来源，约占28%，其次是可见文字（约26%）、剪辑方式（约24%）、音频转录（约17%），以及音频语气（约6%）。这个分布清楚地说明了理解这类视频为什么必须综合多种信息来源，单靠画面是不够的。

在视频所指向的"目标"方面，约31%的视频指向特定个人，约29%没有明确指向目标，约16%指向"自我"（比如自嘲类内容），其余则涵盖了制度机构、种族族裔群体、国籍群体、外貌体型、性别群体、阶级或职业、性取向相关群体、年龄群体等十几种社会分类。

---

五、测试了哪些AI模型，成绩怎么样

研究团队用ViMU测试了16个当前主流的多模态大语言模型，涵盖开源和闭源两类。开源模型中包括Ministral-8B、Ministral-14B、Gemma-3-4B、Gemma-3-27B、Qwen3-VL-32B和Qwen3.5-27B；闭源模型中包括Claude-3-Haiku、GLM-4.5v、Grok-4.1-Fast、Gemini-3-Flash-Preview、Mimo-V2-Omni、Seed-2.0-Lite、o4-mini、GPT-4.1-nano、GPT-5.2和GPT-5.4-mini。所有模型都在零样本条件下接受测试，即没有任何"练习题"预热，直接上场作答。

成绩分布呈现出一个令人深思的格局。在开放性解读任务上，GPT-5.2表现最好，得分约73%，这个成绩听起来还不错。然而，当同一批模型被要求精确识别修辞机制时，GPT-5.2的得分骤降到约17%；在社会价值信号识别上，它也只有约21%。表现最好的开放性解读能力，并没有自动转化为更精准的结构化理解。

反过来，在修辞机制和社会价值信号这两项任务上，表现相对较好的是Grok-4.1-Fast（约35%和29%）、Gemini-3-Flash-Preview（约34%和28%）以及o4-mini（约33%和30%），但这些模型在开放性解读上的得分又不如GPT-5.2。换句话说，"能说清楚视频在讲什么"和"能精确归类用了什么修辞"是两种不同的能力，在不同模型身上呈现出截然不同的优劣组合。

从综合平均分来看，所有16个模型的全任务平均分都低于50%，绝大多数在35%到47%之间。其中，表现最好的是o4-mini（46.91%）和Grok-4.1-Fast（46.28%），开源模型中Qwen3.5-27B（45.91%）表现最为出色；而表现最差的则是GPT-4.1-nano（20.94%）和Claude-3-Haiku（22.90%）。值得一提的是，闭源模型并不总是优于开源模型，Qwen3.5-27B就超过了Claude-3-Haiku和GPT-4.1-nano，这打破了"花钱买API就更强"的直觉预期。

---

六、模型出错的方式揭示了什么

研究团队并不满足于只看总分，还深入拆解了模型是"怎么错的"，这些分析提供了比分数本身更丰富的信息。

在证据定位任务上，有一个观察特别有意思。研究团队发现，绝大多数模型倾向于"保守"——也就是说，它们预测的证据来源数量，比实际正确答案要少。这种保守性有时是无害的，但过于保守的模型（也就是几乎不愿意勾选任何选项的那些）往往也是整体表现最差的。进一步分析错误类型时，模型的错误大多是"漏选"——要么完全没选到正确答案，要么只对了一部分，而不是"多选了错误的答案"。这说明模型的主要问题不是乱猜，而是看不全——它们能感知到一两个明显的证据来源，却常常忽略了更隐蔽的编辑手法或音频信号。

具体来看证据类型的遗漏模式，与编辑方式相关的证据（比如特定的剪辑节奏、蒙太奇技巧）是被遗漏最多的，而音频相关的证据相对来说被遗漏得较少。这说明当前模型对"视频是怎么剪的"这个层面的信号最为迟钝。

在修辞机制识别任务上，研究团队发现了一个系统性的偏向：几乎所有模型都倾向于过度勾选"A：字面/直接"这个选项，同时严重低估"E：隐晦/编码社会框架"这个选项。这种偏向反映了模型的一种"安全默认"心理——面对难以判断的内容，模型倾向于选择最保险、最中性的解释，而不是深入探究其社会编码含义。

在社会价值信号识别任务上，类似的偏向表现为：几乎所有模型都大量过度勾选"B：情感态度"，而低估"E：身份/意识形态信号"。宽泛的情绪感知成为了模型的"万能糊弄答案"，而真正需要识别特定社会群体或政治立场信号的能力，则普遍缺失。

通过对模型错误特征进行主成分分析（一种把复杂数据压缩成可视化图形的统计方法），研究团队发现不同模型家族之间存在明显的"行为聚类"——来自同一公司或同一研究团队的模型，在犯错模式上高度相似，这说明不同AI系统在理解视频含义时，有各自独特的"盲点"，这些盲点往往来自于它们在训练时共享的数据偏好和架构设计。

---

七、给AI出卷子，然后给它解答加提示，有用吗

为了进一步探究模型的局限性来自哪里，研究团队还做了一个对比实验：在让模型回答修辞机制和社会价值信号问题时，分别测试"不给任何解释"和"附上每个选项的详细定义说明"两种情况，看额外的分类定义能否帮助模型选得更准。

结果是：有用，但有限。加了定义说明之后，部分模型在局部选项上的预测确实有所调整，但整体结构性偏向并没有得到根本改变——模型对那些默认选项的偏好依然存在，对隐晦社会信号的系统性低估也没有消失。也就是说，这类问题不是"告诉模型定义就能解决"的问题，而是模型在更深层次上缺乏对这类含义的感知能力。

---

八、这项研究的意义与局限

ViMU最核心的贡献，在于它填补了视频理解评估领域中一个被长期忽视的空白。以往的测试集，要么考察物体识别和动作理解，要么考察时序逻辑，要么只聚焦于幽默理解或图片梗（但图片梗无法捕捉音频、剪辑节奏、时序等视频特有的信号）。ViMU是第一个同时满足以下几个条件的测试集：聚焦于视频潜台词而非字面内容、覆盖多种修辞机制和社会价值信号、要求无提示推断（模型不能从问题中获取答案方向）、包含多模态证据（画面、音频、文字、剪辑）、同时提供开放性和选择性问答两种评估形式。

不过研究团队也坦率承认了这套测试集的局限性。潜台词的理解在本质上是主观的，不同文化背景和社会经验的人对同一段视频的解读可能差异极大，标注过程中残留的偏见和模糊性是无法完全消除的。此外，数据集中包含了一些敏感甚至令人不适的内容——这是测试"AI能否理解社会隐含意义"这件事的代价，因为现实中的此类视频本身就可能涉及冒犯性表达。研究团队明确表示，ViMU仅设计用于评估，不应被用作训练数据。

---

说到底，这项研究在提醒我们一件事：让AI读懂一段视频，和让AI真正理解一段视频，是两件截然不同的事。前者是技术上已经接近成熟的能力，后者则触及了一个更根本的问题——AI能否像人类一样，在文化语境和社会经验的支撑下，感知那些"没有说出口"的含义。

当前最强的商业AI模型，在这件事上平均只做对了不到一半。这不是说这些模型很差，恰恰相反，它们在许多任务上已经表现得相当出色。但ViMU的价值就在于，它精确地划出了一条线，清晰地告诉我们：这条线的另一边，还有很长的路要走。对于真正想让AI参与内容审核、文化分析、舆情理解等现实任务的应用场景来说，这条线的位置，至关重要。

对于普通读者来说，这项研究最直接的含义可能是：下次你看到一段AI生成的视频解读，别想当然地认为它"懂了"。它描述的，可能只是画面本身，而不是视频真正想说的那件事。感兴趣的读者可以通过arXiv编号2605.14607查阅完整论文，进一步了解测试设计和实验细节。

---

Q&A

Q1：ViMU测试集和普通视频理解测试集有什么不同？

A：普通视频理解测试集主要考察模型能否识别画面里的物体、动作和时间顺序，而ViMU专门测试模型能否理解视频"表面内容之外"的隐含含义，比如讽刺、影射、社会批评等。ViMU还要求问题"无提示"，即问题本身不能暗示答案方向，更贴近真实观看体验。

Q2：ViMU基准测试中表现最好的AI模型是哪个？

A：在综合全部四项任务的平均分上，o4-mini以46.91%的成绩排名第一，其次是Grok-4.1-Fast（46.28%）和开源模型Qwen3.5-27B（45.91%）。在开放性解读单项任务上，GPT-5.2得分最高，约为73%，但它在修辞机制识别上仅有约17%，说明不同能力之间存在明显的不平衡。

Q3：AI模型在ViMU上最常犯的错误是什么？

A：模型最常见的错误模式是"选择最安全的默认答案"。在识别修辞机制时，模型倾向于过度勾选"字面/直接"这个最保守的选项；在社会价值信号识别上，则倾向于依赖宽泛的"情感态度"作为万能答案，而不能精准识别更隐晦的社会编码信号，比如身份认同或意识形态暗示。

新加坡国立大学发布首个视频“潜台词“理解基准测试

【ElevenLabs老挝文语音实战指南】：2024年唯一经实测验证的8步本地化语音合成落地方案

智能体元年：一篇讲清楚 Agent 到底是什么？

从TextCNN到BiLSTM：手把手教你用PyTorch搭建并对比5种NLP分类模型（附IMDB实战代码）

OpenBMC 2.14.0 + evb-ast2500平台构建详解：从源码到镜像，一次搞懂Yocto层与BitBake构建

PKPM浮动许可利用率低：软件许可浪费，回收再利用

基于 Google AppSheet 滥用的 Facebook 定向钓鱼攻击机理与防御体系研究