零基础也能用!Fun-ASR语音识别WebUI新手入门指南
你是不是也遇到过这些情况:
会议录音堆在文件夹里,迟迟没时间整理;
客户电话内容记不全,回溯时反复听又费时间;
培训视频想加字幕,但手动打字太耗神……
别再靠“听三遍、敲一遍”硬扛了。今天带你上手一款真正为普通人设计的语音识别工具——Fun-ASR WebUI。它不需要你装Python环境、不用写命令行、不依赖网络上传,更不碰你的隐私数据。只要会点鼠标、能打开浏览器,就能把声音变成文字。
这不是一个需要调参的AI实验品,而是一个开箱即用的本地化语音助手。钉钉联合通义实验室推出、科哥亲手构建,背后是专为中文优化的Fun-ASR-Nano-2512模型,支持离线运行,全程数据不出设备。
下面这份指南,专为零基础用户准备:不讲原理、不堆术语、不绕弯子,只告诉你——每一步点哪里、填什么、等多久、结果在哪看。
1. 三分钟启动:从下载到打开网页
Fun-ASR WebUI 的部署比安装微信还简单。整个过程只需三步,全程可视化操作,连终端窗口都只出现一次。
1.1 启动服务(只需执行一行命令)
镜像已预装所有依赖,你唯一要做的,就是运行这个脚本:
bash start_app.sh这个脚本会自动完成:加载模型、启动Web服务、监听端口。
如果提示“command not found”,请确认你当前目录下确实存在start_app.sh文件(通常位于镜像根目录)。
执行后你会看到类似这样的输出:
Starting Fun-ASR WebUI... Gradio server started at http://0.0.0.0:7860 Press Ctrl+C to stop说明服务已就绪。
1.2 打开网页(本地或远程都行)
- 如果你在本机运行:直接在浏览器地址栏输入
http://localhost:7860 - 如果你在服务器上运行(比如云主机):用任意一台能联网的电脑,打开浏览器,输入
http://你的服务器IP:7860
(例如:http://192.168.1.100:7860或http://47.98.123.45:7860)
小贴士:首次访问可能需要10–20秒加载界面(模型正在载入内存),请耐心等待,页面不会卡死,进度条会缓慢推进。
1.3 界面初识:六个功能区一眼看懂
打开后,你会看到一个干净、分区明确的网页界面,顶部是导航栏,主体分为六大功能模块——它们不是菜单栏里的隐藏选项,而是直接呈现在首页的六个大卡片,每个都带图标和简短说明:
- 🎙 语音识别
- 🎤 实时流式识别
- 📦 批量处理
- 📜 识别历史
- VAD 检测
- ⚙ 系统设置
你不需要记住名字,点进去就知道它是干什么的。接下来,我们就从最常用、最简单的「语音识别」开始,手把手走完第一个完整流程。
2. 第一次识别:上传一段音频,5分钟拿到文字稿
这是90%新用户的第一步。我们以一段常见的“内部周会录音.mp3”为例,演示如何从零开始,得到一份可读、可用的文字记录。
2.1 上传音频:两种方式,任选其一
方式一(推荐):点击“上传音频文件”按钮
→ 弹出系统文件选择框 → 找到你的MP3/WAV/FLAC/M4A文件 → 点击“打开”
→ 文件名会立刻显示在上传区域下方,状态变为“已就绪”。方式二:点击右上角麦克风图标
→ 浏览器会请求麦克风权限 → 点击“允许”
→ 出现红色录音按钮 → 点击开始说话 → 再点一次停止
→ 录音自动保存为临时WAV文件并进入识别队列。
支持格式:WAV、MP3、M4A、FLAC(其他格式可能报错,请提前转码)
❌ 不支持:视频文件(如MP4)、压缩包(ZIP/RAR)、文本文件(TXT)
2.2 设置选项(三选一,建议先用默认)
你不需要改任何设置就能开始识别,但为了效果更好,建议花10秒做这三件事:
- 目标语言:下拉选择“中文”(默认就是,不用动)
- 启用文本规整(ITN): 勾选(强烈建议!它能把“二零二五年”变成“2025年”,“一千二百三十四”变成“1234”)
- 热词列表(可选):如果录音里有固定术语(比如“钉钉”、“通义千问”、“项目复盘”),可以粘贴进去,每行一个词。没有就跳过。
示例热词(复制粘贴即可):
钉钉 通义千问 周会纪要 OKR
2.3 开始识别 & 查看结果
- 点击绿色按钮“开始识别”
- 等待10–60秒(取决于音频长度和设备性能,1分钟以内居多)
- 页面自动刷新,出现两个文本框:
| 区域 | 内容 | 说明 |
|---|---|---|
| 识别结果 | “大家好今天开一下项目复盘会…” | 原始识别输出,保留口语停顿和重复 |
| 规整后文本 | “大家好,今天开一下项目复盘会。第一项是进度同步…” | ITN处理后的版本,标点清晰、数字规范、语义连贯 |
这就是你真正能直接用的文本——可复制、可编辑、可粘贴进Word或飞书文档。
2.4 小技巧:让第一次识别更准
- 音频质量优先:用手机录的会议,尽量选安静环境;老旧MP3建议用Audacity降噪后再上传
- 别怕试错:识别错了?点“重新识别”,换语言或加热词再试一次,全程无成本
- 快捷键提速:光标在热词框内时,按
Ctrl+Enter(Mac用Cmd+Enter)直接启动识别,省去鼠标点击
3. 进阶实用:三个高频场景,一学就会
学会单文件识别只是起点。真正提升效率的,是把Fun-ASR用在你每天都在做的事上。下面三个场景,覆盖80%真实需求,每个都附带“一句话操作口诀”。
3.1 场景一:边说边出字幕(实时流式识别)
适用人群:线上分享者、远程协作者、需要即时记录的主持人
一句话口诀:开麦→说话→停麦→点识别,10秒出字
- 点击导航栏的“实时流式识别”
- 确保麦克风已授权(浏览器地址栏左侧应显示“麦克风已启用”图标)
- 点击中间红色麦克风 → 开始说话 → 说完再点一次停止
- 点击“开始实时识别”→ 等待几秒 → 文字逐句浮现
注意:这不是“真·实时字幕”(会有1–3秒延迟),但足够用于会议辅助记录、直播口播提词。若追求毫秒级响应,需等待后续真流式架构升级。
3.2 场景二:一次处理50个录音(批量处理)
适用人群:培训管理员、客服主管、教研老师
一句话口诀:拖进来→设参数→点批量→导出CSV,半小时搞定百条
- 点击“批量处理”
- 拖拽多个音频文件到上传区(支持MP3/WAV混传)
- 统一设置:语言=中文、ITN=开启、热词=粘贴行业词(如“课程表”“学分制”)
- 点击“开始批量处理”
- 实时查看进度条和当前文件名
- 完成后点击“导出为CSV”→ 得到一个表格:每行一个文件,含原始文本、规整文本、时长、时间戳
实战建议:把同主题录音(如“Q3销售培训”)放一组处理,热词复用率高,准确率更高。
3.3 场景三:从长录音里揪出有效对话(VAD检测)
适用人群:法务人员、访谈记者、课程录制者
一句话口诀:传长音频→设片段上限→点检测→看时间轴,静音自动过滤
- 点击“VAD 检测”
- 上传一段90分钟的课堂录像音频(MP3格式)
- “最大单段时长”保持默认30000ms(30秒),防止单次识别超时
- 点击“开始 VAD 检测”
- 几秒后显示结果:共检测到42段语音,每段起止时间精确到毫秒(如:
[12450, 18920]表示第12.45秒到第18.92秒)
后续动作:复制这些时间戳,在剪映或Audacity中快速切出有效片段,再单独上传识别——比整段硬啃快3倍。
4. 日常维护:查记录、清缓存、换设备,三招搞定
用久了,你会关心:识别过的文件在哪找?显存爆了怎么办?换台电脑怎么迁移?
4.1 查看和管理所有识别记录(识别历史)
- 点击“识别历史”→ 自动列出最近100条
- 想找某次会议?在搜索框输入“周会”或“复盘”,实时筛选
- 点击某条记录右侧的“查看详情”→ 看完整文本、热词、ITN开关状态、原始文件路径
- 想删掉测试记录?输入ID → 点“删除选中记录” → 确认
数据存在哪?本地数据库
webui/data/history.db,可直接复制备份,断电也不丢。
4.2 显存不足?一键释放GPU资源(系统设置)
- 点击“系统设置”→ 滚动到底部
- 点击“清理 GPU 缓存”→ 等2秒 → 提示“GPU内存已释放”
- 若仍卡顿,再点“卸载模型”→ 模型从显存移除,下次使用时自动重载(稍慢几秒)
切换设备也很简单:在“计算设备”下拉菜单中,选
cuda:0(NVIDIA显卡)、cpu(无显卡)、mps(Mac M系列芯片),无需重启服务。
4.3 导出结果后,还能做什么?
- CSV文件可直接导入Excel,用筛选功能查关键词(如“风险”“延期”)
- JSON格式适合程序员二次开发,字段结构清晰:
{"filename":"xxx.mp3","text":"...","normalized":"..."} - 规整后文本复制进飞书/钉钉,@同事快速同步重点
5. 常见问题速查:5个高频问题,答案就在这一节
不用翻文档、不用搜论坛,这里已为你浓缩最常被问到的问题与解法。
Q1:识别半天没反应,页面卡住了?
→ 先按F5刷新页面;若仍卡,检查左下角状态栏是否显示“模型加载中…”;等待30秒,或尝试切换“计算设备”为CPU模式重试。
Q2:识别结果全是乱码或空格?
→ 检查音频是否损坏(用播放器能正常播放吗?);确认格式是MP3/WAV/FLAC;尝试换用Chrome或Edge浏览器。
Q3:麦克风点了没反应?
→ 点浏览器地址栏左侧的锁形图标 → 点“网站设置” → 找到“麦克风” → 设为“允许”;重启浏览器再试。
Q4:批量处理中途关闭了网页,进度还在吗?
→ 不在。Fun-ASR不支持断点续传,请确保处理时浏览器保持开启;下次可减少单批数量(如每次20个)降低风险。
Q5:想换更大模型提升准确率,怎么操作?
→ 当前镜像预装Fun-ASR-Nano-2512,已平衡速度与精度;如需升级,需替换./models/下的模型文件,并在系统设置中指定新路径(进阶操作,新手建议先用默认)。
6. 总结:你已经掌握了90%的日常所需
回顾这一路,你其实只做了几件事:
- 运行了一行命令,打开了一个网页;
- 上传了一个文件,点了一次按钮;
- 学会了三个核心场景的操作口诀;
- 掌握了五个常见问题的自救方法。
Fun-ASR 的设计哲学,就是把复杂留给自己,把简单交给用户。它不追求参数榜单上的第一,而是专注解决你明天就要面对的问题:
✔ 把昨天的会议录音变成可编辑的纪要;
✔ 让今天的客户通话自动生成质检要点;
✔ 帮下周的培训视频配上精准中文字幕。
不需要成为AI工程师,不需要理解Transformer,甚至不需要记住“VAD”“ITN”这些缩写——你只需要知道:
声音 → 上传 → 点击 → 文字 → 复制 → 完事。
这才是真正属于普通人的AI生产力工具。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。