news 2026/4/29 6:18:52

【GitHub项目推荐--video-use:用自然语言剪辑视频,Claude Code 的“AI 剪辑师”】⭐⭐⭐

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【GitHub项目推荐--video-use:用自然语言剪辑视频,Claude Code 的“AI 剪辑师”】⭐⭐⭐

GitHub 地址:https://github.com/browser-use/video-use

简介

video-use​ 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单:把原始素材扔进文件夹,用自然语言告诉 Claude Code(或 Codex、Hermes 等 Agent)你想要什么,直接拿回final.mp4

它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro,也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog,只需一句指令,AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧,而是通过巧妙的“文本+按需视觉”架构,实现了极低 Token 消耗下的专业级剪辑。

主要功能

1. 全自动剪辑流水线

  • 智能粗剪:自动识别多段素材,根据语义(而非单纯的时间码)进行拼接。

  • 精准去“filler”:自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白,保留自然语流。

  • 音频美化:在每个剪切点自动添加 30ms 的音频淡入淡出,消除爆音和突兀感。

  • 视觉统一:支持对每段素材进行独立的色彩调级(如电影感暖色、中性冲击感),统一画面风格。

2. “读”视频而非“看”视频的架构

这是 video-use 最核心的技术创新。它通过两层结构,将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”:

  • Layer 1:音频转录(主视图):利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的takes_packed.md文件,作为 LLM 推理的主要依据。

  • Layer 2:视觉合成(按需):仅在决策模糊时(如判断停顿是否该剪、对比重拍镜头),调用timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。

这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 + 几张图”,实现了真正的实用化。

3. 质量自闭环

  • 自评估机制:渲染完成后,Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户,否则会自动修复并重渲染(最多 3 轮)。

  • 会话记忆:通过project.md文件持久化剪辑上下文,支持下次打开 Claude Code 时从上次的进度继续编辑,非常适合长课程或播客的连载剪辑。

安装与配置

前置要求

  • Claude Code / OpenClaw 等 Agent 环境:需支持 Shell 访问和技能加载。

  • FFmpeg:必须安装,用于视频处理。

  • ElevenLabs API Key:用于高精度语音转录(获取地址:https://elevenlabs.io/app/settings/api-keys)。

安装步骤(Agent 自动模式)

推荐方式:直接在 Claude Code 中粘贴以下指令,Agent 会自动完成克隆、依赖安装和技能注册:

“请安装 video-use 技能。这是我的 ElevenLabs API Key:sk_xxxx。素材目录是~/Videos/my_project。”

安装步骤(手动模式)

如果你倾向于手动控制,或在其他 Agent 中使用:

  1. 克隆仓库

    git clone https://github.com/browser-use/video-use cd video-use
  2. 安装依赖

    pip install -e . brew install ffmpeg yt-dlp # yt-dlp 用于下载在线素材(可选)
  3. 配置 API Key

    cp .env.example .env # 在 .env 文件中填入:ELEVENLABS_API_KEY=sk_your_key_here
  4. 注册技能(以 Claude Code 为例):

    # 创建软链接,将当前目录链接到 Claude 技能目录 ln -s "$(pwd)" ~/.claude/skills/video-use

如何使用

基础工作流

  1. 准备素材:将所有拍摄的原始视频文件(MP4/MOV)放入一个文件夹(如raw_footage)。

  2. 启动 Agent:在终端进入素材目录,启动 Claude Code。

  3. 下达指令:输入自然语言指令,例如:

    “把这些素材剪辑成一个 3 分钟的产品发布视频,去掉所有‘呃’和停顿,加上白色字幕,风格要偏科技感。”

  4. 确认与交付

    • Agent 会先扫描素材,生成一份剪辑策略(包括时长预估、片段顺序)并征求你的同意。

    • 确认后,Agent 开始全自动转录、剪辑和渲染。

    • 成品视频保存在edit/final.mp4,中间文件(如字幕文件、EDL 剪辑清单)也均在edit/目录下,技能目录本身保持干净。

进阶指令示例

  • 风格控制:“给这段访谈加一个电影感的暖色滤镜,片头加 5 秒的标题动画。”

  • 精细修剪:“保留所有带‘笑’的片段,但剪掉超过 2 秒的沉默。”

  • 批量处理:“遍历videos/下的每个子文件夹,分别把每个文件夹里的素材剪成独立的成品。”

应用场景实例(无代码)

场景一:知识博主的内容量产

痛点:知识博主每周需录制多节课程。手动剪辑(去口癖、加字幕)耗时极长,且重复劳动令人疲惫。

video-use 方案

  1. 录制完成后,将视频文件拖入以“课程名”命名的文件夹。

  2. 在 Claude Code 中输入指令:“按讲课顺序剪辑,去掉所有口头禅,保留知识点连贯性,生成 1080P 带字幕视频。”

  3. 价值:将数小时的剪辑工作压缩为“一句话+等待渲染”的被动过程,博主可同时处理多个课程文件夹,实现内容量产。

场景二:企业产品更新视频的 CI/CD

痛点:每次 App 迭代,产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频,流程繁琐。

video-use 方案

  1. 将 Release Notes(Markdown)、新版 App 截图和配音脚本放入指定目录。

  2. 在 CI 流水线中集成 video-use,自动触发指令:“用素材生成 45 秒的竖版更新介绍视频,风格与官网一致。”

  3. 价值:实现了“提交代码即生成宣传视频”的全自动化流程,确保每次发布视频的风格统一且及时。

场景三:播客节目的“精剪”服务

痛点:播客节目通常长达 1-2 小时,包含大量闲聊和停顿,后期剪辑需要人工反复听校,成本极高。

video-use 方案

  1. 将录制的多轨音频(或视频)文件放入文件夹。

  2. 指令:“识别两位主播,剪掉所有非对话的空白和口水词,保留节目核心内容,输出 60 分钟的精剪版。”

  3. 价值:利用其强大的说话人分离和语义理解能力,将剪辑师从枯燥的“听全片”工作中解放出来,只需做最后的艺术性审核即可。

总结

video-use 不仅仅是一个工具,它代表了一种“Intent-based Editing”(基于意图的剪辑)新范式。它通过将视频抽象为“文本时间线”,让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说,它是降低视频制作门槛、实现规模化生产的终极利器。

GitHub 地址:https://github.com/browser-use/video-use

核心依赖:ElevenLabs Scribe API(用于高精度转录)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 6:15:44

Arm架构SIMD与矩阵运算优化实战指南

1. A64指令集架构中的向量与矩阵数据处理概述在Armv8-A和Armv9-A架构中,向量和矩阵数据处理能力经历了显著演进。作为现代计算的核心加速手段,这些技术通过单指令多数据(SIMD)范式大幅提升了多媒体处理、科学计算和机器学习等场景的性能表现。传统标量处…

作者头像 李华
网站建设 2026/4/29 6:14:40

Flutter动画高级技巧:创建流畅的用户体验

Flutter动画高级技巧:创建流畅的用户体验 引言 动画是现代移动应用中不可或缺的一部分,它可以提升用户体验,使应用更加生动和富有吸引力。Flutter提供了强大的动画系统,从基本的补间动画到复杂的物理动画,都可以轻松…

作者头像 李华
网站建设 2026/4/29 6:13:22

Spring Cloud 2027 服务网格实践:构建现代化微服务架构

Spring Cloud 2027 服务网格实践:构建现代化微服务架构 别叫我大神,叫我 Alex 就好 服务网格(Service Mesh)已经成为现代微服务架构的重要组成部分,它为微服务之间的通信提供了一种统一的管理方式。Spring Cloud 2027 …

作者头像 李华
网站建设 2026/4/29 6:06:22

Qwen3-4B-Instruct快速上手:5分钟完成服务启动+浏览器访问全流程

Qwen3-4B-Instruct快速上手:5分钟完成服务启动浏览器访问全流程 1. 模型简介 Qwen3-4B-Instruct-2507是Qwen3系列的端侧/轻量旗舰模型,具备强大的文本理解和生成能力。该模型原生支持256K token(约50万字)上下文窗口&#xff0c…

作者头像 李华