news 2026/6/3 17:51:22

字节跳动开源 Bernini 框架:“先理解、再生成”破解视频生成与编辑痛点

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
字节跳动开源 Bernini 框架:“先理解、再生成”破解视频生成与编辑痛点

【导语:近日,字节跳动商业化技术团队正式开源面向视频生成与视频编辑的统一框架 Bernini。该框架主打“先理解、再生成”协同机制,解决了传统模型的行业痛点,在可控编辑和创作一致性上表现出色,推理代码与部分模型权限已放开。】


“先理解、再生成”的协同机制

Bernini 核心主打“先理解、再生成”的协同机制,解决了传统模型因无法精准理解复杂文本指令而导致画面失控、帧间闪烁等行业痛点。它将工作流拆分为“语义规划”与“视觉渲染”两部分。

系统先通过多模态大模型规划器深度解析输入素材,预测出目标语义表示,勾勒出“语义草图”;再由基于 Diffusion Transformer 的渲染器进行高质量视觉渲染,将语义目标转化为稳定、连续的视频画面。

可控编辑的高实用价值

得益于分工,Bernini 在可控编辑上展现出极高实用价值。用户能通过一条指令让画面中的天气、季节、材质和视觉风格发生逼真自然的变化,还能实现对镜头视角、焦点以及主体动作的精准语义控制。

例如,在保持环境与镜头高度稳定的前提下,系统可让视频中的动物动作发生自然改变,让 AI 视频编辑更接近传统后期软件的精准度。

支持多形式参考提升创作一致性

除了文本操控,Bernini 还支持图片和视频作为视觉参考,大幅提升了创作的一致性。

在视频编辑场景中,它可以将特定材质、指定主体甚至广告海报与视频素材精准植入目标区域,确保边界不破、透视不乱;在新视频生成场景中,该模型支持单图参考生成、多角度参考生成、关键帧到连续镜头的演变,甚至能将几个不相关的单品图像完美组合到同一个视频角色身上。

引入编码机制解决串联难题

为解决多视觉片段串联时模型容易认混的难题,团队引入了 SA - 3D RoPE 位置编码机制,赋予不同视觉片段专属标记,在保留时空位置关系的同时分清参考素材与输出目标。目前,在字节自建的测试中,该框架已稳居行业第一梯队。

编辑观点:Bernini 框架的开源为视频生成与编辑领域带来了新的解决方案,其创新机制和实用功能有望推动行业发展,后续全版本开放值得期待。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/3 17:51:10

BetterRenderDragon终极指南:3步解锁Minecraft延迟渲染极致画质

BetterRenderDragon终极指南:3步解锁Minecraft延迟渲染极致画质 【免费下载链接】BetterRenderDragon 更好的渲染龙 项目地址: https://gitcode.com/gh_mirrors/be/BetterRenderDragon 想要让《我的世界》基岩版拥有电影级的视觉效果吗?BetterRen…

作者头像 李华
网站建设 2026/6/3 17:49:30

数据一致性实战指南:使用 data-diff 构建企业级数据质量保障体系

数据一致性实战指南:使用 data-diff 构建企业级数据质量保障体系 【免费下载链接】data-diff Compare tables within or across databases 项目地址: https://gitcode.com/gh_mirrors/da/data-diff 在现代数据架构中,数据一致性验证是确保数据质量…

作者头像 李华
网站建设 2026/6/3 17:47:25

终极跨平台魔法:3步让Windows程序在Linux/macOS上飞起来

终极跨平台魔法:3步让Windows程序在Linux/macOS上飞起来 【免费下载链接】wine 项目地址: https://gitcode.com/gh_mirrors/wi/wine 你是否曾因为某个心爱的Windows软件无法在Linux或macOS上运行而感到沮丧?或者因为工作需要必须在不同操作系统间…

作者头像 李华
网站建设 2026/6/3 17:47:24

5个关键技巧:用Wine在Linux/macOS上无缝运行Windows程序

5个关键技巧:用Wine在Linux/macOS上无缝运行Windows程序 【免费下载链接】wine 项目地址: https://gitcode.com/gh_mirrors/wi/wine Wine(Wine Is Not an Emulator)是一个革命性的开源兼容层项目,它让Linux和macOS用户能够…

作者头像 李华
网站建设 2026/6/3 17:47:22

UI-TARS-desktop终极指南:5分钟掌握开源AI桌面自动化控制

UI-TARS-desktop终极指南:5分钟掌握开源AI桌面自动化控制 【免费下载链接】UI-TARS-desktop The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra 项目地址: https://gitcode.com/GitHub_Trending/ui/UI-TARS-desktop…

作者头像 李华