news 2026/6/4 10:07:20

Bernini核心功能全揭秘:文本生成视频、图像编辑、视频修复一网打尽

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Bernini核心功能全揭秘:文本生成视频、图像编辑、视频修复一网打尽

Bernini核心功能全揭秘:文本生成视频、图像编辑、视频修复一网打尽

【免费下载链接】Bernini项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance/Bernini

Bernini是字节跳动推出的一款功能强大的视频生成与编辑框架,它结合了基于MLLM的语义规划器和基于DiT的渲染器,为用户提供了从文本生成视频、图像编辑到视频修复的一站式解决方案。无论是新手还是专业用户,都能通过Bernini轻松实现各种创意需求。

✨ Bernini的核心亮点

Bernini作为一款先进的视频生成与编辑工具,具有诸多令人瞩目的亮点。它采用了统一的框架,能够灵活应对多种任务,包括文本到图像(t2i)、图像到图像(i2i)、文本到视频(t2v)、视频到视频(v2v)、参考视频编辑(rv2v)以及参考到视频(r2v)等。

在视频编辑方面,Bernini在领先的闭源商业模型中处于第一梯队。其性能通过自建的竞技场平台进行评估,人类标注员对成对编辑进行盲投,投票结果被聚合为Bradley-Terry分数和成对胜率矩阵,充分证明了其卓越的编辑能力。

🚀 简单三步,快速上手Bernini

1️⃣ 环境准备

要运行Bernini,需要满足以下要求:

  • Python3.11.2
  • CUDA GPU:推荐使用Hopper GPU(H100/H800/H200)以支持FlashAttention-3,其他CUDA GPU可回退到FlashAttention-2或PyTorch SDPA
  • CUDA toolkit12.4(与固定的torch==2.5.1+cu124匹配,最低要求12.3+,如果要构建FlashAttention-3)

此外,requirements.txt中固定了一些关键依赖包,如torch==2.5.1+cu124diffusers==0.35.2accelerate==0.34.2transformers==4.57.3等。

2️⃣ 安装步骤

首先,克隆仓库:

git clone https://gitcode.com/hf_mirrors/ByteDance/Bernini.git bernini && cd bernini

然后安装依赖:

pip install -r requirements.txt

对于可选的额外功能,如多GPU序列并行和更快的注意力机制,可根据需求进行安装。多GPU序列并行需要Open-VeOmni,而更快的注意力机制可选择FlashAttention-2(适用于一般CUDA GPU)或FlashAttention-3(仅适用于Hopper GPU)。

3️⃣ 模型权重下载

Bernini-R使用两组权重:

  1. Wan2.2 base:可从Hugging Face上的Wan-AI/Wan2.2-T2V-A14B-Diffusers获取,它提供了VAE、UMT5文本编码器、分词器和Transformer架构/基础权重。在首次运行时会自动下载,可通过configs/bernini_renderer_wan22/config.json中的wan22_base进行配置。
  2. Bernini-R checkpoint:训练好的高噪声/低噪声Transformer权重(safetensors),可从Hugging Face获取,通过--high_noise_ckpt/--low_noise_ckpt参数传入,支持本地目录和Hugging Face仓库ID。

可以使用huggingface-cli下载模型:

pip install -U "huggingface_hub" hf download Wan-AI/Wan2.2-T2V-A14B-Diffusers --local-dir Wan2.2-T2V-A14B-Diffusers hf download ByteDance/Bernini --local-dir Bernini

🎨 丰富功能,满足多样创作需求

文本到图像(t2i)

只需提供文本描述,Bernini就能生成对应的图像。在单GPU上运行,生成一帧图像,需传递--num_frames 1参数:

python infer_single_gpu.py --high_noise_ckpt <hi> --low_noise_ckpt <lo> \ --case assets/testcases/t2i/t2i.json --num_frames 1

图像编辑(i2i)

对现有图像进行编辑,同样在单GPU上运行,生成一帧图像:

python infer_single_gpu.py --high_noise_ckpt <hi> --low_noise_ckpt <lo> \ --case assets/testcases/i2i/i2i.json --num_frames 1

文本到视频(t2v)

根据文本描述生成视频,可在多GPU上运行:

torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \ --case assets/testcases/t2v/t2v.json

视频编辑(v2v/mv2v)

提供了两种视频编辑案例。对于主体保持普通运动的编辑,使用v2v任务类型:

torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \ --case assets/testcases/v2v/v2v_case1.json

对于需要改变主体运动的编辑,mv2v任务类型能提供更好的结果:

torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \ --case assets/testcases/v2v/v2v_case2.json

参考+视频编辑(rv2v)

有两种参考视频编辑案例。案例1是参考图像引导的视频编辑,将源视频中的服装替换为参考图像中的服装:

torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \ --case assets/testcases/rv2v/rv2v_case1.json

案例2是视频插入示例,将内容插入源视频,可设置为720p/24fps以更清晰地展示插入结果:

torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \ --case assets/testcases/rv2v/rv2v_case2.json \ --num_frames 121 --fps 24 --max_image_size 1280

参考到视频(r2v)

从一个或多个参考图像生成视频:

torchrun --nproc-per-node 8 infer_multi_gpu.py \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --ulysses 8 \ --case assets/testcases/r2v/r2v.json

🖥️ Gradio演示,直观体验操作流程

gradio_demo.py通过Gradio UI展示了相同的 pipeline。任务类型下拉菜单会自动填充guidance_mode(仍可用户编辑),上传的媒体会路由到匹配的插槽,结果会内联渲染。

单GPU运行:

python gradio_demo.py --high_noise_ckpt <hi> --low_noise_ckpt <lo> --port 7860

8 GPU运行,8路Ulysses序列并行:

torchrun --nproc-per-node 8 gradio_demo.py --ulysses 8 \ --high_noise_ckpt <hi> --low_noise_ckpt <lo> --port 7860 --share

添加--use_pe(并export OPENAI_API_KEY=.../BERNINI_PE_API_KEY=...)可启用GPT提示增强,UI中的复选框是在此标志之上的每个请求开关。

📝 总结

Bernini作为一款功能全面的视频生成与编辑框架,凭借其强大的性能和丰富的功能,为用户提供了便捷高效的创作体验。无论是文本生成视频、图像编辑还是视频修复,Bernini都能出色完成。通过简单的安装和操作步骤,用户可以快速上手,尽情发挥创意,打造出令人惊艳的视觉作品。如果你正在寻找一款专业的视频处理工具,Bernini绝对是一个值得尝试的选择!

【免费下载链接】Bernini项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance/Bernini

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 10:06:01

GPT-5.5 Pro实战指南:从提示词到数字员工的范式跃迁

1. 这不是一场“谁更聪明”的考试&#xff0c;而是一次真实世界的压力测试GPT-5.5 Pro发布那天&#xff0c;我关掉所有推送通知&#xff0c;泡了杯浓茶&#xff0c;打开终端&#xff0c;把过去三个月积压的五个自动化脚本任务——从自动抓取竞品API文档并生成结构化对比表&…

作者头像 李华
网站建设 2026/6/4 10:03:06

Python量化投资终极指南:MOOTDX通达信数据接口完整实战教程

Python量化投资终极指南&#xff1a;MOOTDX通达信数据接口完整实战教程 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx MOOTDX是一个基于Python的开源通达信数据接口库&#xff0c;为量化投资提供…

作者头像 李华