news 2026/2/8 8:08:58

【AIGC】SCAIL:通过对 3D 一致姿态表示进行上下文学习,实现工作室级角色动画

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AIGC】SCAIL:通过对 3D 一致姿态表示进行上下文学习,实现工作室级角色动画

参考论文:https://arxiv.org/pdf/2512.05905

参考github: https://github.com/zai-org/SCAIL

主要贡献

(1) 我们提出了一种可扩展的 3D 姿态表示方法,该方法融合了 2D 骨架和 SMPL 的优势,可作为鲁棒的运动驱动信号。(2) 我们通过上下文推理注入驱动姿态控制,实现了有效的时空运动建模,在复杂的多人场景中取得了优异的成果。(3) 我们构建了一个高质量、多样化训练数据的收集流程,并建立了一个全面的 Studio-Bench 用于系统评估。(4) 我们的 SCAIL 框架在现有基线方法的基础上实现了最先进的性能,并将角色图像动画推向了生产级应用。


三维一致姿态调节

问题

二维关键点无法编码三维遮挡,使得模型难以从不完整或模糊的姿态信号中生成逼真的运动视频。另一个挑战来自参考图像和驱动姿态之间的差异,二者通常在体型或身份上有所不同。之前的研究[30, 38]通过在训练中缩放二维骨架或在测试中采用启发式重定向来缓解这种差异,但二维衍生的自适应方法本身就存在形变问题。

理想状态

参考姿态表示应该能够感知深度和遮挡,保持与身份无关,并具备扩展到多人场景的潜力。

解决问题

为了保留 2D 投影中丢失的遮挡和深度线索,我们将 3D 骨骼渲染为圆柱形片段,以提供运动驱动信号。

示意图

全上下文驾驶姿态注入

用于姿态上下文的移位 RoPE

数据过滤pipeline

网络结构

实验细节

我们训练了模型的两个版本(1.3B 和 14B)。1.3B 模型基于 Wan2.1-1.3B-Fun-Inp 骨干网络,在我们的预训练数据集上进行微调,训练步数为 6000 步,批大小为 96,学习率为 1e-5,使用 32 个 NVIDIA H100 GPU,耗时约两天。对于更大的 14B 模型,我们分两个阶段基于 Wan2.1-I2V-14B 骨干网络进行微调:在预训练阶段,我们以 96 的批大小训练 8000 步,学习率为 1e-5。初始学习率为 1e-5;收敛后,我们以相同的批大小和较低的学习率(4e-6)进行 400 步的额外微调。14B 模型的训练在 128 个 NVIDIA H100 GPU 上进行,历时四天以上,并启用了序列并行。所有模型均使用 AdamW [21] 进行优化。在推理过程中,我们将无分类器引导 (CFG) 的尺度 [10] 设置为 4,从而在姿态跟踪和视频保真度之间取得良好的平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 1:09:32

【AOT编译技术深度解析】:全面掌握AOT工作原理与实战优化策略

第一章:AOT编译技术概述AOT(Ahead-of-Time)编译是一种在程序运行之前将源代码或中间代码转换为原生机器码的技术。与JIT(Just-in-Time)编译不同,AOT在构建阶段完成大部分编译工作,从而减少运行时…

作者头像 李华
网站建设 2026/2/7 23:32:53

2025 RAG架构全景图:从核心原理到前沿实战全解读

RAG是增强大型语言模型的主流架构,通过检索外部数据解决模型知识局限性。本文将系统解析其核心原理、数据预处理与检索优化机制,并对比八种架构的适用场景,最后对端到端训练、多模态检索等的未来发展趋势作出展望。 简介 当今,检…

作者头像 李华
网站建设 2026/2/4 7:00:19

相亲局上,我把姑娘的“响应式”理解成了CSS

昨晚我又双叒加班了,修一个IE兼容性问题——虽然我不知道这世界上到底还有谁在用IE。正当我咬牙切齿地跟!important斗智斗勇时,我妈的微信像弹窗广告一样蹦出来:“明晚七点,咖啡馆,姑娘是UI设计师,你肯定聊…

作者头像 李华
网站建设 2026/2/4 2:40:41

HGDBL date_trunc() 和timestamp

文章目录环境文档用途详细信息环境 系统平台:Microsoft Windows (64-bit) 10 版本:5.6.4 文档用途 date_trunc() 和timestamp 时间用法 详细信息 timestamp 1、SELECT now()::timestamp ‘1 year’; 2、SELECT now()::timestamp ‘1 month’; 3、…

作者头像 李华
网站建设 2026/2/4 2:44:49

【资深架构师亲授】:Symfony 8中实现松耦合架构的7种方式

第一章:Symfony 8服务依赖注入核心概念在现代PHP开发中,Symfony 8通过依赖注入(Dependency Injection, DI)机制实现了松耦合与高可测试性的代码结构。依赖注入的核心思想是将对象的依赖关系由外部容器注入,而非在类内部…

作者头像 李华
网站建设 2026/2/7 1:34:38

Java毕设项目:基于springboot海洋馆预约购票系统的设计与实现基于springboot海洋馆预约系统的设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华