news 2026/5/4 16:46:12

从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

大型生成模型在图像编辑和上下文图像生成上进步显著,但在确保物理一致性上有关键差距。论文提出 ChronoEdit 框架,把图像编辑重新定义为视频生成问题,利用大型预训练视频生成模型捕捉对象运动和交互的隐式物理特性,还引入时间推理阶段,通过目标帧与推理标记联合去噪构建合理编辑轨迹,限制解空间在物理可行变换范围,推理标记经几步后丢弃以降低成本。此外,引入新基准测试 PBenchEdit,验证了 ChronoEdit 在视觉保真度和物理合理性上超越先进基线方法。

时间推理可视化

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

在参考图像和编辑图像的潜在变量之间引入了时间推理标记,作为中间指导,帮助模型“思考”可能的编辑轨迹。在推理阶段,为了提高效率,这些标记无需完全去噪;

物理人工智能相关任务

ChronoEdit 生成的编辑能够忠实地遵循物理一致性,这对于物理 AI 相关场景(例如自动驾驶车辆或人形机器人)尤其重要。

相关链接

  • 论文标题: ChronoEdit:面向图像编辑和世界模拟的时间推理
  • 论文: https://arxiv.org/pdf/2510.04290
  • 主页: https://research.nvidia.com/labs/toronto-ai/chronoedit
  • 体验:https://huggingface.co/spaces/nvidia/ChronoEdit
介绍

大型生成模型的最新进展极大地增强了图像编辑和上下文图像生成能力,但在确保物理一致性方面仍然存在关键差距,即编辑后的对象必须保持连贯性。这种能力对于世界模拟相关任务尤为重要。

论文提出了 ChronoEdit 框架将图像编辑重新定义为视频生成问题。 首先,ChronoEdit 将输入图像和编辑后的图像视为视频的首帧和末帧,从而能够利用大型预训练视频生成模型,这些模型不仅能够捕捉对象的外观,还能通过学习到的时间一致性来捕捉运动和交互的隐式物理特性。其次,ChronoEdit 引入了一个时间推理阶段,该阶段在推理阶段显式地执行编辑操作。在此设置下,目标帧与推理标记联合去噪,以构建一个合理的编辑轨迹,将解空间限制在物理上可行的变换范围内。

推理标记在经过几个步骤后被丢弃,以避免渲染完整视频带来的高昂计算成本。为了验证 ChronoEdit 的性能,引入了 PBenchEdit,这是一个针对需要物理一致性的上下文的图像-提示对的新基准测试,并证明 ChronoEdit 在视觉保真度和物理合理性方面均超越了最先进的基线方法。

方法概述

ChronoEdit流程概述。从右至左,去噪过程始于时间推理阶段,在此阶段,模型会想象并去噪一系列中间帧的短轨迹。这些中间帧充当推理标记,指导编辑以物理上一致的方式展开。为了提高效率,推理标记会在后续的编辑帧生成阶段被丢弃,在该阶段,目标帧会被进一步细化为最终的编辑图像。

实验结果

与基线方法的比较。前两行展示了 ImageEditBasic-Edit Suite(Ye 等人,2025)基准测试的示例,最后一行来自 PBench-Edit,其中 ChronoEdit-Think使用 10 个时间推理步骤进行评估。在两个基准测试中,ChronoEdit 都实现了更忠实地遵循给定指令的编辑,同时保留了场景结构和细节。

关于物理人工智能世界模拟相关任务的定性结果。所有结果均由 ChronoEdit-14B-Think 生成。每组结果均包含一张参考图像(左)和相应的输出图像(右)。ChronoEdit 生成的编辑结果能够精确地遵循给定的指令,同时保留物理人工智能相关场景的场景结构和精细细节。

结论

ChronoEdit 是一个用于图像编辑的基础模型,旨在确保物理一致性。通过重新利用预训练的视频扩散模型并引入时间推理阶段,该方法在保持输入和编辑输出之间一致性的同时,生成合理的变换。大量实验表明,ChronoEdit 在开源模型中达到了最先进的性能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 16:52:36

智能抽奖神器,超级好用

今天给大家推荐一款软件是抽奖系统,软件还是很实用,有需要的小伙伴可以下载收藏。 智能抽奖系统 之前找了好多能内定中奖人的抽奖系统,要不就是软件失效了,要不就是付费,今天给大家推荐一款不错的抽奖软件。 测试的时…

作者头像 李华
网站建设 2026/5/2 22:15:00

剖析AIGC降重:你的论文智能“重构师”

当论文修改陷入“换词-调序-再查重-仍标红”的循环时,我们需要的或许不是更努力的“修改”,而是一种全新的“重构”思维。AIGC降重技术正是这样一位智能“重构师”,它不再停留在文本表面,而是深入语义内核,对论文进行理…

作者头像 李华
网站建设 2026/5/4 10:31:23

2026 数据分析主流语言全景解析:选型、场景与学习路径

在数据驱动决策成为企业核心竞争力的当下,数据分析语言早已从专业工具升级为数字化从业者的必备技能。从业务人员的基础取数、分析师的深度挖掘,到数据科学家的模型构建,不同语言凭借独特的技术特性与生态优势,划分出清晰的应用边…

作者头像 李华
网站建设 2026/5/4 7:04:13

Thinkphp和Laravel框架的教学日常管理系统(活动 选课 考勤,听课)

目录 核心功能模块ThinkPHP实现要点Laravel实现要点技术对比差异安全防护措施扩展性设计部署优化方案 开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 以下是关于使用ThinkPHP和Laravel框架开发教学日常管理系统(涵…

作者头像 李华
网站建设 2026/5/2 18:16:09

计算机毕业设计springboot辅导员职责信息管理系统 基于Spring Boot的高校辅导员工作事务综合平台 Spring Boot驱动的学生事务与辅导员协同管理系统

计算机毕业设计springboot辅导员职责信息管理系统_6g45l (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 高校日常育人工作中,辅导员需要同步跟踪学生的学业、考勤、…

作者头像 李华