news 2026/5/27 8:42:58

CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam:无4D数据训练下实现单视频精准相机控制,让短视频创作者轻松掌控“电影级”运镜。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam:无4D数据训练下实现单视频精准相机控制,让短视频创作者轻松掌控“电影级”运镜。

FaceCam仅需单个输入视频和目标相机轨迹即可生成具有精确相机控制的人像视频。我们引入了尺度感知相机条件化方法,通过渲染的面部特征点来表示目标相机,从而实现精确的相机姿态控制。我们的方法在保持高视觉质量的同时,保留了主体身份和运动信息,且无需任何4D合成数据进行训练。

相关链接

  • 项目:https://www.wlyu.me/FaceCam

  • 论文:https://arxiv.org/pdf/2603.05506

  • 代码:https://github.com/weijielyu/FaceCam

论文介绍

论文提出了一种名为FaceCam 的系统,该系统能够根据可定制的相机轨迹生成单目人像视频输入。近年来,基于大型视频生成模型的相机控制方法取得了显著进展,但由于相机表示尺度模糊或 3D 重建误差,人像视频中常常会出现几何畸变和视觉伪影。为了克服这些局限性,我们提出了一种针对人脸的尺度感知 相机变换表示方法,该方法无需依赖 3D 先验信息即可提供确定性的条件。我们使用多视角演播室拍摄视频和自然场景下的单目视频训练视频生成模型,并引入了两种相机控制数据生成策略: 合成相机运动和 多镜头拼接,以便在推理时能够利用静态训练相机,同时泛化到动态连续的相机轨迹。在 Ava-256 数据集和各种自然场景视频上的实验表明,FaceCam 在相机可控性、视觉质量、身份保持和运动保持方面均表现出色。

方法

尺度感知相机调节

尺度模糊的相机表示。现有的相机控制方法使用外部参数对相机进行编码。在单目图像捕捉中,度量深度不可观测,场景只能通过全局相似性来确定,而尺度和平移均未知。因此,同一幅图像可以呈现无限多种三维构型,使得从目标姿态重新渲染成为欠定问题,并导致漂移和控制性差。

尺度感知相机表示。我们通过图像空间点对应关系对相机进行编码。利用二维对应关系,可以估计两个未标定视图之间的基本矩阵,并结合已知的相机内参,恢复全局尺度范围内的相对位姿。人像视频自然地通过面部特征点提供了此类对应关系,因此我们使用栅格化的二维特征点图作为相机表示。

训练数据生成

CVPR 2026

使用仅包含静态摄像机的多视角人体视频数据集,在演播室拍摄的数据集上训练我们的网络。为了在推理阶段实现动态摄像机轨迹,我们引入了两种数据生成策略:合成摄像机运动和多镜头拼接。我们发现,训练阶段通过多镜头拼接产生的非连续摄像机姿态变化,在推理阶段能够很好地泛化为连续的摄像机轨迹,而无需依赖任何用于训练的4D合成数据。

训练和推理流程

训练过程。从目标视频的锚帧中提取面部特征点作为相机条件。源视频、目标视频和相机条件通过变分自编码器(VAE)编码成潜在变量,然后输入到扩散变换器(DTI)中预测目标潜在变量,并使用流匹配损失函数进行优化。

推理过程。使用一个生成的通用头部三维模型,将其沿目标摄像机轨迹渲染,并检测面部特征点作为摄像机运动状态。扩散变换器的输出潜在值由变分自编码器(VAE)解码器解码,从而获得摄像机控制的视频。我们观察到,尽管该模型仅使用不连续的摄像机姿态变化进行训练,但在推理过程中,它能够泛化到连续的摄像机轨迹。

结论

FaceCam 是一种人像视频摄像机控制系统,它用针对人脸定制的、尺度感知的特征点表示取代了与场景无关的外部摄像机表示。这种条件化解决了单目尺度歧义,同时提供了对视角的直观、精确控制。论文进一步提出了一种数据生成流程,该流程从静态多视角工作室拍摄的视频和未标记的自然场景视频中引导,通过合成摄像机运动和多镜头拼接,在推理过程中实现连续的摄像机轨迹,而无需显式的 3D 监督。在 Ava-256 数据集和各种自然场景视频上的实验表明,该系统具有最先进的摄像机可控性、更强的身份和运动保持能力以及更高的视觉质量,验证了我们的表示和数据策略。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/27 8:42:58

AI Agent火了,但你的基础设施真的能扛住吗?先看清这3个代价

先说结论Agent基础设施的核心矛盾是传统架构无法处理高并发递归任务,改造成本可能远超预期从确定性工程转向概率性调试,意味着开发流程和团队技能需要彻底重构,这不是简单工具升级当前基础设施方案集中在沙箱安全和API兼容,但记忆…

作者头像 李华
网站建设 2026/5/27 8:43:00

我的创作纪念日512

512天纪念日的意义 512天纪念日通常指个人或情侣之间为纪念某个重要事件或关系持续了512天而设立的纪念日。这类纪念日属于非传统节日,更多是个人情感的寄托和庆祝。512天约等于1年5个月,这个时间节点可能标志着一段关系从热恋期进入稳定期,或…

作者头像 李华
网站建设 2026/5/27 8:42:59

跨平台办公自动化:OpenClaw+千问3.5-27B同步多端文件

跨平台办公自动化:OpenClaw千问3.5-27B同步多端文件 1. 为什么需要跨平台文件同步? 作为一个常年需要在Windows和Mac双系统切换的开发者,我经历过无数次这样的尴尬时刻:在Mac上修改的文档忘传到Windows,开会时找不到…

作者头像 李华
网站建设 2026/5/27 9:54:40

面向 Context 编程:从代码结构到可推理闭包

面向 Context 编程:从代码结构到可推理闭包 2026-04-02 一、双重消费者:代码为谁而写 当 AI 成为软件开发的核心协作者,一个问题开始变得具体而无法回避:代码究竟是为谁而写?答案已经发生分裂。代码不再只服务于人类…

作者头像 李华
网站建设 2026/5/23 1:51:27

生信小白必看:如何用GeneClear快速处理PASA注释结果(附完整配置流程)

生信入门实战:GeneClean高效处理PASA注释结果的完整指南 刚接触基因组注释的新手常会遇到这样的困境:好不容易拿到PASA注释结果,面对gff3、fasta等格式文件却不知从何下手。数据清洗和格式转换这个看似简单的环节,往往成为阻碍后续…

作者头像 李华