GitHub 地址:https://github.com/browser-use/video-use
简介
video-use 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单:把原始素材扔进文件夹,用自然语言告诉 Claude Code(或 Codex、Hermes 等 Agent)你想要什么,直接拿回final.mp4。
它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro,也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog,只需一句指令,AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧,而是通过巧妙的“文本+按需视觉”架构,实现了极低 Token 消耗下的专业级剪辑。
主要功能
1. 全自动剪辑流水线
智能粗剪:自动识别多段素材,根据语义(而非单纯的时间码)进行拼接。
精准去“filler”:自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白,保留自然语流。
音频美化:在每个剪切点自动添加 30ms 的音频淡入淡出,消除爆音和突兀感。
视觉统一:支持对每段素材进行独立的色彩调级(如电影感暖色、中性冲击感),统一画面风格。
2. “读”视频而非“看”视频的架构
这是 video-use 最核心的技术创新。它通过两层结构,将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”:
Layer 1:音频转录(主视图):利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的
takes_packed.md文件,作为 LLM 推理的主要依据。Layer 2:视觉合成(按需):仅在决策模糊时(如判断停顿是否该剪、对比重拍镜头),调用
timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。
这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 + 几张图”,实现了真正的实用化。
3. 质量自闭环
自评估机制:渲染完成后,Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户,否则会自动修复并重渲染(最多 3 轮)。
会话记忆:通过
project.md文件持久化剪辑上下文,支持下次打开 Claude Code 时从上次的进度继续编辑,非常适合长课程或播客的连载剪辑。
安装与配置
前置要求
Claude Code / OpenClaw 等 Agent 环境:需支持 Shell 访问和技能加载。
FFmpeg:必须安装,用于视频处理。
ElevenLabs API Key:用于高精度语音转录(获取地址:https://elevenlabs.io/app/settings/api-keys)。
安装步骤(Agent 自动模式)
推荐方式:直接在 Claude Code 中粘贴以下指令,Agent 会自动完成克隆、依赖安装和技能注册:
“请安装 video-use 技能。这是我的 ElevenLabs API Key:
sk_xxxx。素材目录是~/Videos/my_project。”
安装步骤(手动模式)
如果你倾向于手动控制,或在其他 Agent 中使用:
克隆仓库:
git clone https://github.com/browser-use/video-use cd video-use安装依赖:
pip install -e . brew install ffmpeg yt-dlp # yt-dlp 用于下载在线素材(可选)配置 API Key:
cp .env.example .env # 在 .env 文件中填入:ELEVENLABS_API_KEY=sk_your_key_here注册技能(以 Claude Code 为例):
# 创建软链接,将当前目录链接到 Claude 技能目录 ln -s "$(pwd)" ~/.claude/skills/video-use
如何使用
基础工作流
准备素材:将所有拍摄的原始视频文件(MP4/MOV)放入一个文件夹(如
raw_footage)。启动 Agent:在终端进入素材目录,启动 Claude Code。
下达指令:输入自然语言指令,例如:
“把这些素材剪辑成一个 3 分钟的产品发布视频,去掉所有‘呃’和停顿,加上白色字幕,风格要偏科技感。”
确认与交付:
Agent 会先扫描素材,生成一份剪辑策略(包括时长预估、片段顺序)并征求你的同意。
确认后,Agent 开始全自动转录、剪辑和渲染。
成品视频保存在
edit/final.mp4,中间文件(如字幕文件、EDL 剪辑清单)也均在edit/目录下,技能目录本身保持干净。
进阶指令示例
风格控制:“给这段访谈加一个电影感的暖色滤镜,片头加 5 秒的标题动画。”
精细修剪:“保留所有带‘笑’的片段,但剪掉超过 2 秒的沉默。”
批量处理:“遍历
videos/下的每个子文件夹,分别把每个文件夹里的素材剪成独立的成品。”
应用场景实例(无代码)
场景一:知识博主的内容量产
痛点:知识博主每周需录制多节课程。手动剪辑(去口癖、加字幕)耗时极长,且重复劳动令人疲惫。
video-use 方案:
录制完成后,将视频文件拖入以“课程名”命名的文件夹。
在 Claude Code 中输入指令:“按讲课顺序剪辑,去掉所有口头禅,保留知识点连贯性,生成 1080P 带字幕视频。”
价值:将数小时的剪辑工作压缩为“一句话+等待渲染”的被动过程,博主可同时处理多个课程文件夹,实现内容量产。
场景二:企业产品更新视频的 CI/CD
痛点:每次 App 迭代,产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频,流程繁琐。
video-use 方案:
将 Release Notes(Markdown)、新版 App 截图和配音脚本放入指定目录。
在 CI 流水线中集成 video-use,自动触发指令:“用素材生成 45 秒的竖版更新介绍视频,风格与官网一致。”
价值:实现了“提交代码即生成宣传视频”的全自动化流程,确保每次发布视频的风格统一且及时。
场景三:播客节目的“精剪”服务
痛点:播客节目通常长达 1-2 小时,包含大量闲聊和停顿,后期剪辑需要人工反复听校,成本极高。
video-use 方案:
将录制的多轨音频(或视频)文件放入文件夹。
指令:“识别两位主播,剪掉所有非对话的空白和口水词,保留节目核心内容,输出 60 分钟的精剪版。”
价值:利用其强大的说话人分离和语义理解能力,将剪辑师从枯燥的“听全片”工作中解放出来,只需做最后的艺术性审核即可。
总结
video-use 不仅仅是一个工具,它代表了一种“Intent-based Editing”(基于意图的剪辑)新范式。它通过将视频抽象为“文本时间线”,让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说,它是降低视频制作门槛、实现规模化生产的终极利器。
GitHub 地址:https://github.com/browser-use/video-use
核心依赖:ElevenLabs Scribe API(用于高精度转录)