【GitHub项目推荐--video-use：用自然语言剪辑视频，Claude Code 的“AI 剪辑师”】⭐⭐⭐-平芜编程栈

GitHub 地址：https://github.com/browser-use/video-use

简介

video-use 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单：把原始素材扔进文件夹，用自然语言告诉 Claude Code（或 Codex、Hermes 等 Agent）你想要什么，直接拿回final.mp4。

它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro，也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog，只需一句指令，AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧，而是通过巧妙的“文本+按需视觉”架构，实现了极低 Token 消耗下的专业级剪辑。

主要功能

1. 全自动剪辑流水线

智能粗剪：自动识别多段素材，根据语义（而非单纯的时间码）进行拼接。
精准去“filler”：自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白，保留自然语流。
音频美化：在每个剪切点自动添加 30ms 的音频淡入淡出，消除爆音和突兀感。
视觉统一：支持对每段素材进行独立的色彩调级（如电影感暖色、中性冲击感），统一画面风格。

2. “读”视频而非“看”视频的架构

这是 video-use 最核心的技术创新。它通过两层结构，将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”：

Layer 1：音频转录（主视图）：利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的takes_packed.md文件，作为 LLM 推理的主要依据。
Layer 2：视觉合成（按需）：仅在决策模糊时（如判断停顿是否该剪、对比重拍镜头），调用timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。

这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 + 几张图”，实现了真正的实用化。

3. 质量自闭环

自评估机制：渲染完成后，Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户，否则会自动修复并重渲染（最多 3 轮）。
会话记忆：通过project.md文件持久化剪辑上下文，支持下次打开 Claude Code 时从上次的进度继续编辑，非常适合长课程或播客的连载剪辑。

安装与配置

前置要求

Claude Code / OpenClaw 等 Agent 环境：需支持 Shell 访问和技能加载。
FFmpeg：必须安装，用于视频处理。
ElevenLabs API Key：用于高精度语音转录（获取地址：https://elevenlabs.io/app/settings/api-keys）。

安装步骤（Agent 自动模式）

推荐方式：直接在 Claude Code 中粘贴以下指令，Agent 会自动完成克隆、依赖安装和技能注册：

“请安装 video-use 技能。这是我的 ElevenLabs API Key:sk_xxxx。素材目录是~/Videos/my_project。”

安装步骤（手动模式）

如果你倾向于手动控制，或在其他 Agent 中使用：

克隆仓库：

git clone https://github.com/browser-use/video-use cd video-use

安装依赖：

pip install -e . brew install ffmpeg yt-dlp # yt-dlp 用于下载在线素材（可选）

配置 API Key：

cp .env.example .env # 在 .env 文件中填入：ELEVENLABS_API_KEY=sk_your_key_here

注册技能（以 Claude Code 为例）：

# 创建软链接，将当前目录链接到 Claude 技能目录 ln -s "$(pwd)" ~/.claude/skills/video-use

如何使用

基础工作流

准备素材：将所有拍摄的原始视频文件（MP4/MOV）放入一个文件夹（如raw_footage）。
启动 Agent：在终端进入素材目录，启动 Claude Code。
下达指令：输入自然语言指令，例如：
“把这些素材剪辑成一个 3 分钟的产品发布视频，去掉所有‘呃’和停顿，加上白色字幕，风格要偏科技感。”
确认与交付：
- Agent 会先扫描素材，生成一份剪辑策略（包括时长预估、片段顺序）并征求你的同意。
- 确认后，Agent 开始全自动转录、剪辑和渲染。
- 成品视频保存在edit/final.mp4，中间文件（如字幕文件、EDL 剪辑清单）也均在edit/目录下，技能目录本身保持干净。

进阶指令示例

风格控制：“给这段访谈加一个电影感的暖色滤镜，片头加 5 秒的标题动画。”
精细修剪：“保留所有带‘笑’的片段，但剪掉超过 2 秒的沉默。”
批量处理：“遍历videos/下的每个子文件夹，分别把每个文件夹里的素材剪成独立的成品。”

应用场景实例（无代码）

场景一：知识博主的内容量产

痛点：知识博主每周需录制多节课程。手动剪辑（去口癖、加字幕）耗时极长，且重复劳动令人疲惫。

video-use 方案：

录制完成后，将视频文件拖入以“课程名”命名的文件夹。
在 Claude Code 中输入指令：“按讲课顺序剪辑，去掉所有口头禅，保留知识点连贯性，生成 1080P 带字幕视频。”
价值：将数小时的剪辑工作压缩为“一句话+等待渲染”的被动过程，博主可同时处理多个课程文件夹，实现内容量产。

场景二：企业产品更新视频的 CI/CD

痛点：每次 App 迭代，产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频，流程繁琐。

video-use 方案：

将 Release Notes（Markdown）、新版 App 截图和配音脚本放入指定目录。
在 CI 流水线中集成 video-use，自动触发指令：“用素材生成 45 秒的竖版更新介绍视频，风格与官网一致。”
价值：实现了“提交代码即生成宣传视频”的全自动化流程，确保每次发布视频的风格统一且及时。

场景三：播客节目的“精剪”服务

痛点：播客节目通常长达 1-2 小时，包含大量闲聊和停顿，后期剪辑需要人工反复听校，成本极高。

video-use 方案：

将录制的多轨音频（或视频）文件放入文件夹。
指令：“识别两位主播，剪掉所有非对话的空白和口水词，保留节目核心内容，输出 60 分钟的精剪版。”
价值：利用其强大的说话人分离和语义理解能力，将剪辑师从枯燥的“听全片”工作中解放出来，只需做最后的艺术性审核即可。

总结

video-use 不仅仅是一个工具，它代表了一种“Intent-based Editing”（基于意图的剪辑）新范式。它通过将视频抽象为“文本时间线”，让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说，它是降低视频制作门槛、实现规模化生产的终极利器。

GitHub 地址：https://github.com/browser-use/video-use

核心依赖：ElevenLabs Scribe API（用于高精度转录）

【GitHub项目推荐--video-use：用自然语言剪辑视频，Claude Code 的“AI 剪辑师”】⭐⭐⭐

简介

主要功能

1. 全自动剪辑流水线

2. “读”视频而非“看”视频的架构

3. 质量自闭环

安装与配置

前置要求

安装步骤（Agent 自动模式）

安装步骤（手动模式）

如何使用

基础工作流

进阶指令示例

应用场景实例（无代码）

场景一：知识博主的内容量产

场景二：企业产品更新视频的 CI/CD

场景三：播客节目的“精剪”服务

总结

Arm架构SIMD与矩阵运算优化实战指南

Flutter动画高级技巧：创建流畅的用户体验

Spring Cloud 2027 服务网格实践：构建现代化微服务架构

CVPR 2022 TransMVSNet实战解析：Transformer如何解决多视图立体匹配中的‘模糊区域’难题？

Phi-3.5-mini-instruct多场景应用：法律条文解读、医疗科普转述、技术文档翻译

Qwen3-4B-Instruct快速上手：5分钟完成服务启动+浏览器访问全流程