语音识别 + TTS：搭建一个语音笔记助手-平芜编程栈

我有一个习惯——通勤路上用手机录音记想法。录了三个月，积压了 80 多条没整理。

3 月的某个周末我花半天写了一个工具：语音 → 转文字 → LLM 整理 → 念给我听。现在每天下班路上录完，到家时手机上已经有一份整理好的笔记了。

这篇文章把这个工具的完整 Go 代码给你。复制下来就能跑。

整体流程

手机录音（.m4a / .mp3） → ffmpeg 转格式 → Whisper API 语音转文字 → DeepSeek 整理成结构化笔记 → Edge TTS 转语音（可选，路上听） → 保存到本地 Markdown

三块核心功能：语音识别 + LLM 整理 + 语音合成。每一步都有 Go 代码。

第一步：语音转文字 —— 调 Whisper API

OpenAI 的 Whisper API 是中文语音识别准确率最高的服务之一。当然你也可以用本地 Whisper 模型，但 API 省显卡：

packagemainimport("bytes""encoding/json""fmt""io""mime/multipart""net/http""os""os/exec""path/filepath""strings")funcconvertToMp3(inputPathstring)(string,error){outputPath:=strings.TrimSuffix(inputPath,filepath.Ext(inputPath))+".mp3"cmd:=exec.Command("ffmpeg","-i",inputPath,"-acodec","libmp3lame","-ar","16000","-ac","1","-y",outputPath,)iferr:=cmd.Run();err!=nil{return"",fmt.Errorf("ffmpeg 转换失败: %w",err)}returnoutputPath,nil}functranscribeAudio(audioPathstring)(string,error){apiKey:=os.Getenv("OPENAI_API_KEY")// 构建 multipart 请求varbuf bytes.Buffer w:=multipart.NewWriter(&buf)// 添加文件file,_:=os.Open(audioPath)deferfile.Close()part,_:=w.CreateFormFile("file",filepath.Base(audioPath))io.Copy(part,file)// 添加参数w.WriteField("model","whisper-1")w.WriteField("language","zh")// 中文w.WriteField("response_format","text")w.Close()req,_:=http.NewRequest("POST","https://api.openai.com/v1/audio/transcriptions",&buf,)req.Header.Set("Authorization","Bearer "+apiKey)req.Header.Set("Content-Type",w.FormDataContentType())resp,err:=http.DefaultClient.Do(req)iferr!=nil{return"",err}deferresp.Body.Close()text,_:=io.ReadAll(resp.Body)returnstring(text),nil}

实测效果——我录了一段 45 秒的中文口述：

输入（录音）：

"今天想到一个点子，就是可以把那个daily report agent 扩展一下，让它不只是读Git提交，还能读Jira的工单状态 ...不对不对，应该是先读Jira再读Git，因为有的时候 Git提交里没有写清楚这个需求对应的是哪个Task"

Whisper 输出：

今天想到一个点子 就是可以把那个daily report agent 扩展一下 让它不只是读Git提交 还能读Jira的工单状态 不对不对 应该是先读Jira再读Git 因为有的时候Git提交里 没有写清楚这个需求对应的是哪个Task

口语化的「不对不对」、停顿、犹豫词全保留了——这就是原始转录。还需要 LLM 整理。

第二步：LLM 整理成结构化笔记

原始转录太碎，不能直接用。丢给 DeepSeek 整理：

funcorganizeNote(transcriptstring)(string,error){systemPrompt:=`你是笔记整理助手。将口语化的语音转录整理成结构化笔记。 规则： 1. 去掉口语冗余词（"那个""就是说""不对不对"等） 2. 修正因语音识别导致的错别字 3. 保持原意，不要添加转录中没有的内容 4. 用 Markdown 格式输出 格式： ## [一句话标题] **核心想法：** （1-2 句总结） **详细内容：** （整理后的完整内容） **待办/下一步：** （如果有明确的下一步，列出来；没有就写"暂无"） **标签：** #标签1 #标签2`returncallLLM(systemPrompt,transcript)}

实际跑出来的结果：

## daily-report-agent 集成 Jira 工单 **核心想法：** daily-report-agent 应扩展数据源，先读 Jira 工单再读 Git 提交， 实现需求到代码的完整追溯。 **详细内容：** 现有 daily-report-agent 仅支持 Git 提交记录。建议扩展为： 1. 先查询 Jira 中当前用户的活跃工单 2. 根据工单关联的分支/PR 拉取对应的 Git 提交 3. 生成"需求 → 开发 → 提交"完整链路的工作汇报 **待办/下一步：** - 调研 Jira REST API（/rest/api/2/search） - 确认 CNB 的 Jira 集成方式 - 估算开发工时 **标签：** #daily-report-agent #Jira #工作流优化

口语碎碎念变成了结构化笔记。这才是我记完能用的东西。

第三步：TTS —— 让 AI 念给你听

有时候不想看屏幕，想在路上听。Edge TTS 是微软的免费服务，中文语音质量非常好：

import("io""net/http""os""strings")// Edge TTS 免费，不需要 API KeyfunctextToSpeech(text,outputPathstring)error{// Edge TTS 的 SSML 格式请求ssml:=fmt.Sprintf(`<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN"> <voice name="zh-CN-XiaoxiaoNeural"> <prosody rate="0.9" pitch="0%%"> %s </prosody> </voice> </speak>`,text)// 调 Edge TTS 的 WebSocket 接口比较复杂，这里展示 HTTP 接口简化版// 实际推荐使用 github.com/xxx/edge-tts-go 封装好的库req,_:=http.NewRequest("POST","https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",nil,)// ... Edge TTS 的具体调用（完整代码见 GitHub 仓库）_=reqreturnnil}

Edge TTS 完整客户端代码较长（含 WebSocket 连接、SSML 构建），完整版在 GitHub - lobster-bujiaban/voice-note

组装：一个 main 函数串起全流程

funcmain(){iflen(os.Args)<2{fmt.Println("用法: voice-note <音频文件>")fmt.Println("支持格式: m4a, mp3, wav, ogg")os.Exit(1)}audioFile:=os.Args[1]fmt.Println("🎤 处理音频:",audioFile)// 1. 格式转换fmt.Print(" → 转换格式...")mp3File,err:=convertToMp3(audioFile)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Println(" 完成")// 2. 语音转文字fmt.Print(" → 语音转文字...")transcript,err:=transcribeAudio(mp3File)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Printf(" 完成 (%d 字)\n",len([]rune(transcript)))// 3. LLM 整理fmt.Print(" → LLM 整理...")note,err:=organizeNote(transcript)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Println(" 完成")// 4. 保存 Markdownfilename:=fmt.Sprintf("note-%s.md",time.Now().Format("2006-01-02-150405"))os.WriteFile(filename,[]byte(note),0644)fmt.Println(" → 已保存:",filename)// 5. 生成语音（可选）audioOutput:=strings.TrimSuffix(filename,".md")+".mp3"fmt.Print(" → 生成语音...")iferr:=textToSpeech(note,audioOutput);err!=nil{fmt.Printf("跳过: %v\n",err)}else{fmt.Println(" 完成:",audioOutput)}fmt.Println("\n✅ 完成！你的笔记：")fmt.Println(note)}

成本

步骤	服务	成本
语音转文字	Whisper API	$0.006/分钟 ≈ ¥0.04
整理	DeepSeek V4 Flash	约 500 token ≈ ¥0.0005
TTS	Edge TTS	免费
合计	约 ¥0.04 / 条

录一条 1 分钟的语音，整理成笔记，念给你听——总成本 4 分钱。

还能怎么扩展

这个基础骨架搭好后，往哪个方向扩展都可以：

基础版（本文） → 本地文件输入，Markdown 输出 扩展 1 → 加上微信机器人，发语音自动转笔记 扩展 2 → 多说话人识别，会议录音自动做纪要 扩展 3 → 笔记存入向量数据库，语义搜索 扩展 4 → 定时扫描邮箱/IM，发现语音附件自动处理

其实这个工具的骨架跟 daily-report-agent 是一样的——数据源 + AI 处理 + 结果输出。只是数据源从 Git API 换成了音频文件。

下一篇：让 AI 看视频。

语音识别 + TTS：搭建一个语音笔记助手

整体流程

第一步：语音转文字 —— 调 Whisper API

第二步：LLM 整理成结构化笔记

第三步：TTS —— 让 AI 念给你听

组装：一个 main 函数串起全流程

成本

还能怎么扩展

当机器开始养育机器——嵌入式视角下的未来社会沙盘推演

5分钟构建专业级ACES色彩管理：OpenColorIO配置完全指南

100、构建你的 AI 辅助工程化体系：从工具选择到工作流设计的终极指南

算法复杂度的可视化评估与优化策略研究的技术8

Bilibili-Evolved性能优化指南：3步实现60fps流畅播放体验

Windows内存管家Mem Reduct：轻量级实时清理工具完整使用指南