一个将本地视频/音频转换为文字或字幕文件的命令行工具-平芜编程栈

video-to-txt

一个将本地视频/音频转换为文字或字幕文件的命令行工具。支持自动语言检测与中文简繁转换，默认在本地运行，不需要申请任何 API Key。

Github 地址: video2audio2text: https://github.com/GaloisZhou/video2audio2text

功能

提取视频音频为 MP3/WAV
本地转录为字幕或纯文本（基于faster-whisper）
自动语言检测：中文/英语，含粤语启发式识别
中文脚本转换：简体/繁体（基于opencc）
备用方案：OpenAI API（可选）

环境要求

Python: 支持 Python 3.8+ (已在 Python 3.13 测试通过)。
FFmpeg: 必须安装 FFmpeg 命令行工具。
- macOS:brew install ffmpeg
- Windows/Linux: 请参考 FFmpeg 官网安装并添加到 PATH。

安装

克隆或下载本项目。
安装 Python 依赖：

pipinstall-r requirements.txt pipinstallfaster-whisper

使用方法

命令行接口 (CLI)

运行main.py即可处理视频。

基本用法

提取音频并生成字幕（默认使用 base 模型，输出 srt 格式）：

python main.py path/to/your/video.mp4

仅提取音频

如果不想要生成字幕，可以加上--audio-only参数：

python main.py path/to/your/video.mp4 --audio-only

使用 OpenAI API (解决本地安装问题)

如果本地openai-whisper安装失败（如在 Python 3.13 上），您可以使用 OpenAI API Key 来生成字幕：

# 方法 1: 通过命令行参数python main.py video.mp4 --api-key sk-xxxxxx# 方法 2: 通过环境变量 (推荐)exportOPENAI_API_KEY="sk-xxxxxx"python main.py video.mp4

注意：API 模式会产生费用，请参考 OpenAI 官方定价。

指定模型和格式

您可以指定 Whisper 模型大小（模型越大越准但越慢）和输出格式：

python main.py video.mp4 --model medium --format vtt

--model:tiny,base,small,medium,large
--format:srt,txt,vtt,tsv,json

Java计算机毕设之基于springboot的旅拍在线婚纱摄影网站的设计与实现订单对接旅拍路线、筛选摄影风格、预约拍摄服务（完整前后端代码+说明文档+LW，调试定制等）

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

计算机Java毕设实战-基于springboot的拍卖网站的设计与实现拍卖商品管理、历史竞拍管理【完整源码+LW+部署说明+演示视频，全bao一条龙等】

李华

宇宙密码：数字 0.01 如何颠覆人类宇宙观

宇宙密码：数字 0.01 如何颠覆人类宇宙观想象一下，如果告诉你宇宙的本质可以用一个简单的数字来概括，那会是什么？引言：一个数字发明宇宙的密码一个看似平凡的数字"0.01"将彻底颠覆人类对宇宙的认知&#xff…

李华

AI时代：IT人会被取代还是更强大？

AI与IT从业者的关系：替代还是协同？引言简要介绍AI技术的快速发展及其在IT领域的应用现状，提出核心问题：AI是否会替代IT从业者？AI在IT领域的能力现状自动化开发与运维 AI在代码生成、测试自动化、系统监控等方面的应用…

李华

MVCC深度解析：MySQL如何实现高效无阻塞的并发读写

MVCC，正是MySQL实现“高并发、低阻塞”的核心技术——它让“读操作不用等写操作，写操作也不用等读操作”成为可能，其实核心就是“给数据存多个版本，不同事务按规则读对应版本”。一、 MVCC初印象：数据库的"时光机…

李华