news 2026/2/14 15:11:34

LongVie:通过多模式控制实现一分钟超高质量视频生成的新时代

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LongVie:通过多模式控制实现一分钟超高质量视频生成的新时代

概述

本文提出了一个新框架 LongVie,用于高质量、可控地生成超过一分钟的超长视频。

扩散建模方面的最新进展推动了从文本和图像生成短视频技术的快速发展,但长视频的生成却面临着显著的挑战,如缺乏时间一致性和图像质量下降。

传统方法采用自动回归法,按顺序生成短片。

然而,这种方法容易出现不自然的过渡和片段间歇时的闪烁,而且图像质量会随着时间的推移而下降。

本研究认为,“噪声初始化的独立性”、"控制信号的逐个片段归一化 "和 "单一模式控制的局限性 "是造成这些问题的原因。
然后,通过引入统一噪声初始化、全局控制信号归一化、多模态控制和降级感知学习作为这些问题的解决方案,我们实现了前所未有的长时间、流畅和高质量视频生成。

建议的方法

所提出的 LongVie 基于自动回归生成框架,并结合了几种新技术来实现长视频生成。

首先,"统一噪声初始化 "确保每个片段都由相同的潜在噪声生成,从而保持各片段运动和外观的一致性。
其次,"全局控制信号归一化 "统一了整个视频中控制信号(如深度图)的比例,从而避免了场景之间的不一致。

此外,还引入了 "多模态控制 "来整合密集控制信号(深度图)和稀疏控制信号(关键点),以实现结构准确性和语义一致性。
不过,由于密集信号往往占主导地位,LongVie 采用了 “降级感知学习策略”,有意削弱或降级密集信号,以保持与稀疏信号之间的平衡。

这就实现了时间平滑、高质量和可控的视频生成。
该框架还可扩展到视频编辑、场景传输和从三维网格生成视频等应用任务。

实验

在实验中,首先建立了一个评估基准,即 LongVGenBench。
这是一个由 100 个高分辨率视频组成的数据集,包括真实世界和合成环境,所有视频都超过一分钟。

该基准用于将结果与现有的典型视频生成模型(如 CogVideoX、StreamingT2V、VideoComposer)进行比较。

使用的评估指标包括主体/背景一致性、时间风格、闪烁抑制和图像质量评级(SSIM 和 LPIPS)。

结果表明,LongVie 在几乎所有指标上都优于传统方法,尤其是在时间一致性和视觉质量方面有显著改善。

此外,在用户研究中,LongVie 在视觉质量、与提示的一致性和时间流畅性方面都获得了最高评价。

此外,消融实验分别证实了统一噪声初始化、全局归一化和退化感知学习的有效性。
总之,所提出的方法为长视频生成设定了新标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/9 21:52:04

EmotiVoice语音合成在图书馆自助服务系统中的便捷应用

EmotiVoice语音合成在图书馆自助服务系统中的便捷应用 在一座现代化的智慧图书馆里,一位视障读者轻轻触碰自助终端屏幕,询问:“《平凡的世界》在哪里?”几秒钟后,一个温和、清晰且略带关切语气的声音响起:“…

作者头像 李华
网站建设 2026/2/13 7:42:52

02.生成式人工智能和大型语言模型简介

生成式人工智能和大型语言模型简介 生成式人工智能是一种能够生成文本、图像及其他类型内容的人工智能技术。它的神奇之处在于,它让人工智能变得更加普及,任何人只需输入一个文本提示,即用自然语言写的一句话,就可以使用它。你不需…

作者头像 李华
网站建设 2026/2/7 4:08:53

03.探索和比较不同类型AI模型

探索和比较不同的LLM 在上一课中,我们已经了解了生成式人工智能如何改变技术格局,了解了大型语言模型(LLM)的工作原理,以及企业(例如我们的初创公司)如何将其应用于实际案例并实现增长&#xff…

作者头像 李华
网站建设 2026/2/13 8:40:04

HTML插槽与Shadow DOM:Web Components基础

HTML插槽与Shadow DOM:Web Components基础 引言 在Web开发领域,随着项目复杂度的不断提升,代码复用与组件化开发的需求愈发迫切。Web Components作为一项原生支持的技术,为开发者提供了创建可复用、封装性强的自定义组件的能力。其…

作者头像 李华
网站建设 2026/2/13 21:08:19

HTML导入与模块化:`link rel=“import“`的替代方案深度解析

HTML导入与模块化&#xff1a;link rel"import"的替代方案深度解析 在Web开发的早期阶段&#xff0c;HTML导入&#xff08;<link rel"import">&#xff09;作为Web Components规范的一部分&#xff0c;曾被视为模块化HTML内容的重要解决方案。该特性…

作者头像 李华