news 2026/2/14 5:40:54

Runway发布首个世界模型,为最新视频模型增加原生音频功能

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Runway发布首个世界模型,为最新视频模型增加原生音频功能

随着AI图像和视频生成公司Runway加入越来越多的初创公司和大型科技公司行列,推出其首个世界模型,世界模型发布竞赛正式拉开帷幕。该公司表示,这个名为GWM-1的模型通过逐帧预测工作,创建具有物理理解能力的仿真,并且了解世界如何随时间实际运行。

世界模型是一种AI系统,它学习世界运行方式的内部仿真,因此可以进行推理、规划和行动,而无需针对现实生活中每种可能的场景进行训练。

本月早些时候,Runway推出了Gen 4.5视频模型,在Video Arena排行榜上超越了谷歌和OpenAI。该公司表示,其GWM-1世界模型比谷歌的Genie-3和其他竞争对手更"通用"。该公司将其定位为一个可以创建仿真来训练不同领域智能体的模型,如机器人技术和生命科学。

该公司首席技术官Anastasis Germanidis在直播中说:"要构建世界模型,我们首先需要构建一个真正出色的视频模型。我们相信构建世界模型的正确路径是教会模型直接预测像素,这是实现通用仿真的最佳方式。在足够的规模和正确的数据下,你可以构建一个对世界运行方式有充分理解的模型。"

Runway发布了新世界模型的特定版本,称为GWM-Worlds、GWM-Robotics和GWM-Avatars。

GWM-Worlds是该模型的一个应用程序,让用户创建交互式项目。用户可以通过提示或图像参考设置场景,当您探索空间时,模型会生成具有几何、物理和光照理解的世界。该公司提到仿真以24fps和720p分辨率运行。Runway表示,虽然Worlds对游戏很有用,但它也非常适合教授智能体如何在物理世界中导航和行为。

通过GWM-Robotics,该公司旨在使用合成数据,并添加新参数如变化的天气条件或障碍物。Runway表示,这种方法还可以揭示机器人在不同场景下何时以及如何违反政策和指令。

Runway还在GWM-Avatars下构建逼真的虚拟形象来模拟人类行为。D-ID、Synthesia、Soul Machines甚至谷歌等公司都致力于创建看起来真实的人类虚拟形象,并在通信和培训等领域工作。

该公司指出,从技术上讲,Worlds、Robotics和Avatars是独立的模型,但最终计划将所有这些合并为一个模型。

除了发布新的世界模型外,该公司还在更新本月早些时候发布的基础Gen 4.5模型。新更新为模型带来了原生音频和长篇多镜头生成功能。该公司表示,使用这个模型,用户可以生成一分钟的视频,具有角色一致性、原生对话、背景音频和各种角度的复杂镜头。该公司说,您还可以编辑现有音频和添加对话。此外,您可以编辑任意长度的多镜头视频。

Gen 4.5更新使Runway更接近竞争对手Kling的一体化视频套件,后者也在本月早些时候推出,特别是在原生音频和多镜头叙事方面。这也表明视频生成模型正在从原型转向生产就绪工具。Runway更新的Gen 4.5模型对所有付费计划用户可用。

该公司表示将通过SDK提供GWM-Robotics。它补充说,正在与多家机器人公司和企业就GWM-Robotics和GWM-Avatars的使用进行积极对话。

Q&A

Q1:GWM-1世界模型是什么?它有什么特殊功能?

A:GWM-1是Runway发布的首个世界模型,通过逐帧预测工作,能够创建具有物理理解能力的仿真,了解世界如何随时间实际运行。它比谷歌的Genie-3等竞争对手更"通用",可以创建仿真来训练机器人技术和生命科学等不同领域的智能体。

Q2:GWM-Worlds应用程序能做什么?

A:GWM-Worlds让用户创建交互式项目,可以通过提示或图像参考设置场景。当用户探索空间时,模型会生成具有几何、物理和光照理解的世界,仿真以24fps和720p分辨率运行,适合游戏开发和教授智能体在物理世界中的导航行为。

Q3:Runway Gen 4.5模型更新增加了哪些新功能?

A:更新后的Gen 4.5模型增加了原生音频和长篇多镜头生成功能,用户可以生成一分钟的视频,具有角色一致性、原生对话、背景音频和各种角度的复杂镜头。还可以编辑现有音频、添加对话,以及编辑任意长度的多镜头视频。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/3 2:44:37

当AI学会倾听:Anthropic如何让1250位职场人敞开心扉聊AI

这项由Anthropic公司于2024年12月5日发布的研究,首次展示了一个名为"Anthropic Interviewer"的AI访谈工具如何大规模收集人们对人工智能的真实看法。研究团队对1250位来自不同职业的专业人士进行了深度访谈,其中包括1000名普通职场人士、125名…

作者头像 李华
网站建设 2026/2/13 2:13:27

据说这就是AI手机的形态,贴脸开大:豆包手机上手评测

最近科技圈有一台手机,骂声和赞美声齐飞,争议大到让人不得不关注——有人说它是手机界的"iPhone时刻",也有人吐槽花3499买了个半成品。这台让全网吵翻天的设备,就是努比亚M153,江湖人称"豆包手机"…

作者头像 李华
网站建设 2026/2/13 4:37:10

助推规模化落地!ROBOMIND重塑商用机器人“真实价值”!

在爆发式发展的浪潮下,商用机器人已在清洁、配送、巡检等多元场景中彰显巨大潜力。然而,在从概念验证迈向大规模部署的关键阶段,行业却遇到了亟待突破的共同挑战,使得机器人往往困在“落地最后一公里”。商用机器人痛点难解部署与…

作者头像 李华
网站建设 2026/2/5 3:46:56

Redhat Debian Suse 主流OS 之间的区别

Fedora 介绍(官网): https://docs.fedoraproject.org/en-US/project/ Redhat :https://www.redhat.com/zh-cn?ohwww.redhat.com.cn suse 官网 关于我们(中文版) https://www.suse.com/zh-cn/company/about/#suse-history debian 官网介绍: …

作者头像 李华
网站建设 2026/2/9 21:00:02

磁盘分区与文件系统格式相关

MBR 重要数据: 主引导扇区(512字节) 主引导记录:记录系统引导程序相关数据(前446字节)分区表:记录磁盘分区开始位置、大小等信息(4*1664字节)魔数:0x55AA&a…

作者头像 李华
网站建设 2026/2/7 4:06:28

新品发布 | 生产、制造及售后领域强有力的VCI接口M810

MC810是MC产品系列的又一个强大的VCI。凭借紧凑的设计和WiFi、USB及蓝牙作为主机系统的接口,以及CAN(FD)、以太网到车辆,MC810特别适合面向未来的制造和售后服务应用。一、应用场景下图展示了通过车辆通信卡进行诊断测试的系统框图。其中,PC可…

作者头像 李华