news 2026/4/13 4:20:58

【论文自动阅读】Active Intelligence in Video Avatars via Closed-loop World Modeling

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Active Intelligence in Video Avatars via Closed-loop World Modeling

快速了解部分

基础信息(英文):

  1. 题目: Active Intelligence in Video Avatars via Closed-loop World Modeling
  2. 时间: 2025.12
  3. 机构: The Hong Kong University of Science and Technology, Meituan, University of Science and Technology of China
  4. 3个英文关键词: Active Intelligence, Video Avatars, Closed-loop World Modeling

1句话通俗总结本文干了什么事情

本文提出了ORCA框架,通过闭环的世界模型让视频虚拟人不仅能“动”,还能像人一样观察、思考、行动并反思,从而自主完成复杂的多步任务。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视频虚拟人(Video Avatar)技术虽然能保持身份一致和动作对齐,但缺乏真正的“能动性”(Agency)。它们只能被动地响应语音或姿态驱动,无法在生成环境不确定性下进行长视野的目标导向规划和环境交互。

核心方法:关键技术、模型或研究设计(简要)

提出了ORCA(Online Reasoning and Cognitive Architecture)框架,包含一个闭环的OTAR循环(观察-思考-行动-反思)和一个分层双系统架构(System 2负责战略推理,System 1负责动作落地),将虚拟人控制建模为部分可观测马尔可夫决策过程(POMDP)。

深入了解部分

相比前人创新在哪里

  1. 从被动到主动:首次将“主动智能”引入视频虚拟人领域,使其能自主追求长期目标。
  2. 闭环机制:引入“反思”(Reflect)阶段,通过验证生成结果与预期的一致性来防止信念崩溃,解决了生成模型的随机性问题。
  3. 分层控制:设计了双系统架构,分离了高层战略规划(System 2)和低层精确控制(System 1),解决了开放域动作在生成模型上的落地难题。

解决方法/算法的通俗解释

想象一个教练指挥一个视力不好且动作不稳定的球员。

  1. **教练(System 2)**先看一眼场上的情况(Observe),想好下一步要干嘛(Think)。
  2. 教练把指令告诉翻译(System 1),翻译把大白话变成球员能听懂的精确口令(Act),让球员去执行。
  3. 球员动完后,教练再看一眼结果(Reflect):如果和预想的一样,就继续;如果不一样(比如球没接到),教练就调整计划,让球员重试,直到做对为止。
    这个过程不断循环(OTAR),保证了即使球员发挥不稳定,最终也能完成整场比赛(任务)。

解决方法的具体做法

  1. 定义任务:提出了L-IVA任务,将视频生成视为POMDP问题,需要智能体在部分可观测和生成随机性下完成任务。
  2. OTAR循环
    • Observe:利用VLM从生成的视频片段中更新当前世界状态信念。
    • Think:System 2根据当前状态和目标规划子目标并预测下一状态。
    • Act:System 1将抽象子目标转化为特定I2V模型能精确执行的详细动作描述。
    • Reflect:验证生成结果是否符合预测,若不符合则触发重试或重规划。
  3. 双系统架构:System 2利用VLM进行开放式推理;System 1利用Prompt Engineering进行动作接地。

基于前人的哪些方法

  1. 内部世界模型(IWM)理论:借鉴了认知科学和控制理论中的内部世界模型概念,用于在部分可观测环境下进行状态估计和预测。
  2. 双过程理论(Dual-process theory):借鉴了心理学中System 1(快速、直觉)和System 2(慢速、推理)的概念,设计了分层的决策架构。
  3. POMDP框架:将决策问题形式化为部分可观测马尔可夫决策过程。

实验设置、数据、评估方式、结论

  • 数据:构建了L-IVA基准,包含100个任务,涵盖厨房、直播、车间、花园、办公室5个场景,涉及多人协作和多对象交互。
  • 对比:与Open-Loop Planner(开环规划)、Reactive Agent(反应式代理)、VAGEN-style CoT(类似世界模型推理)对比。
  • 评估:使用任务成功率(TSR)、物理合理性(PPS)、动作保真度(AFS)、人类偏好(BWS)等指标。
  • 结论:ORCA在任务成功率和行为连贯性上显著优于基线模型,证明了闭环世界模型在视频虚拟人中的有效性。

提到的同类工作

  1. InterActHuman:音频和文本驱动的虚拟人动画。
  2. DreamFactory / StoryAgent:用于复杂视频创作的多智能体系统,侧重于叙事连贯性。
  3. VISTA / GENMAC:通过生成-批判循环改进视频生成的框架。

和本文相关性最高的3个文献

  1. ** VAGEN**: Reinforcing world model reasoning for multi-turn vlm agents. (同为基于世界模型的VLM智能体研究,但假设环境确定性)
  2. ** Dual-process theories…**: 提供了ORCA双系统架构的理论心理学基础。
  3. ** Partially observable markov decision processes**: 提供了L-IVA任务形式化的数学框架基础。

我的

  1. 作者思路是先提出一个任务L-IVA(内容是让虚拟人自主完成视频里的复杂任务),然后把多个模型拼接起来成一个架构,VLM负责理解,然后给出prompt,让视频生成模型生成。没有训练。Lego-Style工作。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/8 13:26:26

Docker Swarm 中 ingress 网络的核心用法

文章目录 实例 1:基础场景 - 部署带 ingress 发布端口的 Web 服务 操作步骤 & 命令: 关键解释: 实例 2:自定义 ingress 网络(修改默认子网/网关) 操作步骤 & 命令: 关键解释: 实例 3:ingress 网络 + 自定义 overlay 网络 操作步骤 & 命令: 关键解释: 实…

作者头像 李华
网站建设 2026/3/21 7:01:27

解密Fiddler,从零开始轻松掌握弱网测试技巧!

使用Fiddler对手机App应用进行抓包,可以对App接口进行测试,也可以了解App传输中流量使用及请求响应情况,从而测试数据传输过程中流量使用的是否合理。这篇文章就带大家了解一下抓包过程。 01 Fiddler设置 1、启动Fiddler->Tools->Fid…

作者头像 李华
网站建设 2026/3/31 2:19:49

python基于django固定资产折旧及租赁维修管理系统的设计与实现

目录固定资产管理系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!固定资产管理系统摘要 该系统基于Python的Django框架开发,旨在为企业提供高效的固定资产折旧计…

作者头像 李华
网站建设 2026/4/12 7:07:20

python基于django语言在线考试与自动评判系统

目录基于Django的在线考试与自动评判系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!基于Django的在线考试与自动评判系统摘要 在线考试与自动评判系统是一种利用现代网络技…

作者头像 李华
网站建设 2026/4/8 4:35:03

掌握这两点,你的 SQL 查询速度直接提升 10 倍

掌握这两点,你的 SQL 查询速度直接提升 10 倍据统计,85%的企业级应用性能问题源于低效的SQL查询。某电商公司2025年双11期间因未优化索引导致订单查询延迟超2秒,直接造成单日GMV损失超300万元。本文将通过B树索引原理、执行计划深度解析、动态…

作者头像 李华