Qwen3-ASR-1.7B实战案例：政府公开听证会→多发言人分离+内容摘要生成-平芜编程栈

Qwen3-ASR-1.7B实战案例：政府公开听证会→多发言人分离+内容摘要生成

想象一下这个场景：一场长达数小时的政府公开听证会刚刚结束，会议录音里混杂着主持人、发言人、提问者、旁听者等多人的声音。你需要从这段冗长的音频中，快速整理出每位发言人的核心观点，并生成一份清晰、准确的会议纪要。传统的人工听写和整理，不仅耗时耗力，还容易出错。

今天，我们就来聊聊如何用Qwen3-ASR-1.7B这个强大的语音识别工具，结合一些巧妙的处理思路，自动化地解决这个难题。我们将把一个复杂的“多发言人音频”变成一份结构清晰的“内容摘要”，整个过程就像搭积木一样简单。

1. 项目目标与核心思路

我们的目标很明确：输入一段多人交替发言的听证会录音，最终输出一份按发言人划分、并提炼了核心内容的摘要报告。

直接让ASR模型去处理，它可能会把所有人的话混在一起输出成一大段文字，这显然不是我们想要的。所以，我们需要一个“分而治之”的策略。

核心处理流程可以分为三步：

音频预处理与发言人分离：这是最关键的一步。我们需要先把不同人的声音“切”开。这里可以借助专业的语音处理工具（如PyAnnote或SpeechBrain）进行声纹聚类，将音频按说话人分割成多个单说话人片段。
分片段高精度转写：将上一步得到的每个纯净的音频片段，逐个喂给Qwen3-ASR-1.7B进行文字转写。得益于其高精度和对中文方言的强鲁棒性，即使发言人带有地方口音，也能获得准确的文本。
文本后处理与摘要生成：将所有转写文本按时间顺序或发言人ID整理好。然后，我们可以利用大语言模型（例如Qwen、ChatGLM等），基于整理好的文本，生成一份结构化的摘要，比如“发言人A：主要表达了XXX观点；发言人B：针对YYY问题提出了ZZZ建议”。

简单来说，就是“先分人，再转写，后总结”。

2. 为什么选择Qwen3-ASR-1.7B？

在众多语音识别方案中，为什么这个场景特别适合用Qwen3-ASR-1.7B？主要是因为它解决了我们最头疼的几个问题。

2.1 应对复杂的声学环境

公开听证会的录音环境通常不理想。可能有背景噪音、回声、多人同时低语等。Qwen3-ASR-1.7B的17亿参数带来了更强的模型容量，使其在复杂声学环境下比小模型（如0.6B版本）拥有更好的抗干扰能力和鲁棒性，转写准确率更高。一个错别字可能就会曲解政策观点，高精度至关重要。

2.2 兼容多样的语言和口音

与会者可能来自不同地区，普通话可能带有各种方言口音（如粤语、川渝口音等），甚至偶尔会穿插英文术语。Qwen3-ASR-1.7B原生支持52种语言和方言，其自动语言检测功能也能很好地处理这种混合情况，无需我们提前告知“哪里是普通话，哪里是方言”，简化了流程。

2.3 部署简单，开箱即用

我们使用的CSDN星图镜像已经将模型、环境、Web界面全部打包好。你不需要关心复杂的Python依赖、CUDA版本或模型下载问题。这让我们能把主要精力放在业务逻辑（发言人分离和摘要生成）上，而不是环境配置上。

3. 实战步骤详解

下面，我们一步步拆解这个自动化流程。假设我们已经获得了一段名为hearing_audio.mp3的听证会录音文件。

3.1 第一步：环境准备与音频加载

首先，确保你已经部署并启动了Qwen3-ASR-1.7B的Web服务。访问https://gpu-{你的实例ID}-7860.web.gpu.csdn.net/应该能看到上传界面。

在本地开发环境中，我们需要安装一些用于音频处理的Python库。

# 安装必要的Python库 pip install pydub pyannote.audio speechbrain -q # pydub: 用于音频文件格式转换和基础切割 # pyannote.audio 或 speechbrain: 用于更专业的说话人日志（Speaker Diarization）

然后，我们写一段代码来加载音频文件。

from pydub import AudioSegment import os # 加载音频文件 audio_path = "hearing_audio.mp3" audio = AudioSegment.from_file(audio_path) print(f"音频加载成功！") print(f"时长：{len(audio) / 1000:.2f} 秒") print(f"采样率：{audio.frame_rate} Hz") print(f"声道数：{audio.channels}")

3.2 第二步：说话人分离（核心）

这一步我们使用pyannote.audio来实现。请注意，你需要先在 Hugging Face 上同意用户协议，并获取一个访问令牌。

from pyannote.audio import Pipeline import torch # 请替换成你在Hugging Face上获取的令牌 HF_TOKEN = "your_huggingface_token_here" # 加载预训练的说话人日志管道 # 模型会自动下载到本地 pipeline = Pipeline.from_pretrained( "pyannote/speaker-diarization-3.1", use_auth_token=HF_TOKEN ) # 将pydub的AudioSegment对象转换为pyannote需要的格式 # 先临时保存为wav文件 temp_wav = "temp_audio.wav" audio.export(temp_wav, format="wav") # 执行说话人日志分析 print("正在进行说话人分离分析，这可能需要一些时间...") diarization = pipeline(temp_wav) # 清理临时文件 os.remove(temp_wav) # 打印结果 print("说话人分离结果：") for turn, _, speaker in diarization.itertracks(yield_label=True): print(f"发言人 {speaker}: 从 {turn.start:.1f}s 到 {turn.end:.1f}s")

运行后，你会得到类似这样的输出：

发言人 SPEAKER_00: 从 5.2s 到 23.8s 发言人 SPEAKER_01: 从 24.1s 到 45.5s 发言人 SPEAKER_00: 从 46.0s 到 67.3s ...

这表明系统识别出了两个主要的说话人（SPEAKER_00, SPEAKER_01），并标注了每个人每次说话的时间段。

3.3 第三步：按发言人切割音频并转写

现在，我们根据上一步得到的时间段，把原始音频切割成一个个只包含单一说话人的小片段，然后调用Qwen3-ASR-1.7B的API进行批量转写。

这里假设你的Qwen3-ASR服务已经启动，并且我们通过其内部API（镜像通常基于Gradio，其API可访问）来调用。为了简化，我们先模拟切割和保存过程。

from pydub import AudioSegment import requests import json import time # 假设的ASR服务端点（实际地址需替换） ASR_API_URL = "https://gpu-{实例ID}-7860.web.gpu.csdn.net/run/predict" # 根据diarization结果切割音频 segments = [] for turn, _, speaker in diarization.itertracks(yield_label=True): start_ms = int(turn.start * 1000) end_ms = int(turn.end * 1000) segment = audio[start_ms:end_ms] # 保存片段 segment_filename = f"segment_{speaker}_{start_ms}_{end_ms}.wav" segment.export(segment_filename, format="wav") segments.append({ "file": segment_filename, "speaker": speaker, "start": turn.start, "end": turn.end }) print(f"已保存片段：{segment_filename}") print(f"共切割出 {len(segments)} 个音频片段。") # 定义一个函数来调用ASR服务 def transcribe_audio(file_path): """调用Qwen3-ASR服务进行转写""" try: # 注意：实际调用Gradio API可能需要根据其接口规范调整 # 这里是一个示例请求结构 with open(file_path, 'rb') as f: files = {'file': f} data = {'language': 'auto'} # 使用自动语言检测 # 实际请求需要查看镜像提供的API文档 # response = requests.post(ASR_API_URL, files=files, data=data) # result = response.json() # 模拟返回结果 print(f"正在转写: {file_path}") time.sleep(0.5) # 模拟处理时间 # 假设返回的文本 simulated_text = f"这是来自{file_path}的模拟转写文本。在实际应用中，这里将是Qwen3-ASR识别出的真实内容。" return simulated_text except Exception as e: print(f"转写 {file_path} 时出错: {e}") return "" # 批量转写所有片段 transcription_results = [] for seg in segments: text = transcribe_audio(seg['file']) seg['text'] = text transcription_results.append(seg) print(f"发言人 {seg['speaker']}: {text[:50]}...") # 打印前50字符 # 按时间顺序整理转写结果 transcription_results.sort(key=lambda x: x['start'])

重要提示：上面的transcribe_audio函数是模拟的。在实际操作中，你需要根据Qwen3-ASR镜像提供的具体API接口（可能是Gradio的/run/predict或自定义的API端口）来构造真实的HTTP请求。你可以通过查看镜像的Web界面源代码或文档来找到正确的调用方式。

3.4 第四步：文本整理与摘要生成

现在，我们有了按时间顺序排列的、带发言人标签的文本列表。接下来就是整理和总结。

# 1. 按发言人合并文本 from collections import defaultdict speaker_texts = defaultdict(list) for seg in transcription_results: speaker_texts[seg['speaker']].append(seg['text']) print("\n=== 按发言人整理的发言内容 ===") for speaker, texts in speaker_texts.items(): combined_text = ' '.join(texts) print(f"\n【{speaker}】:") print(combined_text[:200] + "...") # 打印每个发言人的前200字符 # 2. 生成结构化摘要（这里使用一个本地LLM的模拟函数） # 在实际项目中，你可以接入Qwen、ChatGLM等LLM的API def generate_summary(structured_text): """ 模拟大语言模型生成摘要。 实际应用中，这里会调用LLM API，提示词可能是： “你是一名专业的会议纪要员。请根据以下按发言人整理的听证会文字记录，生成一份摘要。 摘要需包含：会议主要议题、每位发言人的核心观点与建议。文字记录如下：{structured_text}” """ print("\n=== 正在生成会议摘要 ===") # 模拟LLM处理 summary = f""" **听证会内容摘要** **主要议题：** 关于模拟城市新区建设规划的公众听证。 **发言人核心观点：** - **SPEAKER_00 (主要陈述方):** 阐述了新区建设的总体规划、交通布局和环保措施，强调了项目对经济发展的带动作用。 - **SPEAER_01 (提问与建议方):** 对规划中的教育资源配比和文化遗产保护提出了具体疑问，并建议增加社区公园的面积。 **后续建议：** 建议规划部门就教育用地和文保方案进行细化说明，并在下一轮公示中纳入修改。 """ return summary # 准备输入给LLM的文本 input_for_llm = "" for speaker, texts in speaker_texts.items(): input_for_llm += f"发言人 {speaker}：\n" + '\n'.join(texts) + "\n\n" final_summary = generate_summary(input_for_llm) print(final_summary)

运行到这一步，你就能得到一份初步的、按发言人划分的文本记录，以及一份模拟生成的会议摘要。在实际应用中，将generate_summary函数替换为真实的LLM API调用，就能获得高质量、可读性强的最终报告。