news 2026/5/21 2:18:54

【论文自动阅读】Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test

快速了解部分

基础信息(英文):

  1. 题目: Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test
  2. 时间年月: 2025年(文档ID: 2601.04137,通常代表2026年1月提交,内容基于2025年研究)
  3. 机构名: Peking University (State Key Laboratory of Multimedia Information Processing), Beijing Innovation Center of Humanoid Robotics, The Hong Kong University of Science and Technology
  4. 3个英文关键词: Embodied AI, World Model, Turing Test

1句话通俗总结本文干了什么事情

本文建立了一个名为WoW-World-Eval的全面测试基准(图灵测试),用来评估视频生成模型是否具备像人类一样理解物理世界、进行规划并指导机器人行动的能力。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视频生成基准主要关注视觉美感(如清晰度),忽略了机器人领域最需要的物理常识逻辑规划可执行性。这导致模型虽然生成的视频“看起来很真”,但物理上是错误的,无法指导真实机器人操作。

核心方法:关键技术、模型或研究设计(简要)

设计了一个多维度的评估基准WoW-World-Eval,包含22项指标,从感知、规划、预测、执行和泛化五个方面考核模型。同时提出了两种“图灵测试”:一种是人类图灵测试(看视频是否能骗过人类),另一种是逆动力学模型(IDM)图灵测试(看生成的视频能否被转换为真实机器人可执行的动作)。

深入了解部分

相比前人创新在哪里

  1. 维度更全:首次将**规划(Planning)执行(Execution)**纳入评估体系,而不仅仅是视觉质量。
  2. 评估更准:引入了基于人类偏好的评分体系(与人类评分相关性高达0.93),并提出了机器视角的IDM图灵测试来验证物理可执行性。
  3. 数据更精:构建了包含609个高质量机器人操作样本的数据集,涵盖长视界规划和物理交互。

解决方法/算法的通俗解释

想象你要考驾照,现在的基准只看你画的“行车记录画”漂不漂亮(视觉基准)。本文的方法是:不仅要看你画的画像不像(视觉质量),还要考官(人类)判断这画是否符合物理常识(比如车会不会飞),最后还要看你画的路线能不能让真的车开起来(IDM测试)。

解决方法的具体做法

  1. 构建基准:收集609个机器人操作视频,人工标注关键点和指令。
  2. 多维打分
    • 视觉质量:用PSNR, FVD等指标。
    • 指令理解:用GPT-4o判断视频是否符合文字指令。
    • 物理法则:用微调过的Qwen-2.5-VL模型打分,检查物理常识(如重力、碰撞)。
    • 规划推理:用有向无环图(DAG)对比模型生成的动作顺序是否正确。
  3. 双重图灵测试
    • 人类测试:让人分辨真假视频,计算欺骗成功率。
    • 机器测试(IDM):用训练好的逆动力学模型去“解读”生成的视频,看能否输出真实机器人能执行的控制指令。

基于前人的哪些方法

  1. 数据处理:参考了RoboBench的规划评估指标(DAG方法)。
  2. 物理评估:基于VideoPhy等物理常识评估思路,但进行了扩展。
  3. 执行测试:基于WoW论文中的 Gripper-Centric Inverse Dynamics Model (GC-IDM) 来验证真实世界的成功率。

实验设置、数据、评估方式、结论

  1. 实验设置:评估了闭源模型(Kling, Hailuo)和开源模型(CogVideoX, Wan2.1, Cosmos-Predict系列)以及具身世界模型(WoW系列)。
  2. 数据:609个机器人操作样本,包含In-Distribution和Out-of-Distribution数据。
  3. 评估方式:22项指标综合打分,以及人类和IDM图灵测试。
  4. 结论
    • 商业模型(如Hailuo)在视觉和指令理解上较好,但物理规划弱。
    • 规划是当前所有模型的瓶颈,得分普遍极低。
    • 大多数模型在IDM图灵测试中失败(成功率接近0%),说明生成的视频虽然好看但“做不了”。
    • WoW-cosmos2在开源模型中表现最好,但在真实执行上仍有巨大差距。

提到的同类工作

  1. Physics-10 / PhyGenBench:侧重物理诊断,但缺乏规划和执行评估。
  2. T2V-CompBench / VBench-2.0:侧重通用视频生成的组成性和物理常识,非机器人具身场景。
  3. WorldModelBench / EWMBench:虽然评估世界模型,但未涵盖规划和执行维度。

和本文相关性最高的3个文献

  1. **RoboBench **:本文直接引用其规划评估指标(DAG),是本文评估逻辑推理的核心基础。
  2. **WoW **:本文提出的IDM图灵测试直接基于该论文的GC-IDM模型,且WoW系列模型是本文的核心被评测对象之一。
  3. **VideoPhy **:本文在物理常识评估部分直接引用了该工作的指标设计,是本文物理评估维度的重要参考。

我的

  1. 相比一般的video generation benchmark,加了一个planning和Execution的评测。planning:用MLLM拆分多个阶段,然后比。这种还是有缺陷,比如系鞋带、叠衣服等难拆分的任务没法评。
  2. execution:用生成video,Inverse dynamic model得到action,然后执行。自己训的IDM。在真机上执行,没说几个真机。有多个任务。可信度存疑。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 10:41:07

淘宝评论API:差评预警系统,及时处理!

在电商平台如淘宝上,商品评论是消费者决策的重要参考。差评(负面评论)不仅影响商家信誉,还可能导致销量下降。及时处理差评能提升客户满意度、维护品牌形象。本技术帖将介绍如何利用淘宝评论API构建一个差评预警系统,帮…

作者头像 李华
网站建设 2026/5/20 15:05:52

**归纳法**从测试中发现的问题出发,收集相关数据并分析其内在联系

一、软件调试方法归纳法 从测试中发现的问题出发,收集相关数据并分析其内在联系。基于数据分析提出可能导致错误的假设。利用已有数据验证或反驳该假设,逐步缩小错误范围,最终定位问题根源。演绎法 首先列出所有可能引起错误的原因&#xff0…

作者头像 李华
网站建设 2026/5/20 15:06:31

【计算机毕业设计案例】基于人工智能python-CNN训练识别蔬菜是否新鲜基于python-CNN卷神经网络训练识别蔬菜是否新鲜

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/20 15:06:32

外文文献查找的6个途径等方法探讨

刚开始做科研的时候,我一直以为: 文献检索就是在知网、Google Scholar 里反复换关键词。 直到后来才意识到,真正消耗精力的不是“搜不到”,而是—— 你根本不知道最近这个领域发生了什么。 生成式 AI 出现之后,学术检…

作者头像 李华