AutoGLM-Phone-9B实战教程：智能会议纪要生成-平芜编程栈

AutoGLM-Phone-9B实战教程：智能会议纪要生成

在当今快节奏的办公环境中，高效记录和整理会议内容成为提升团队协作效率的关键。然而，传统的人工记录方式耗时耗力，且容易遗漏关键信息。随着多模态大模型的发展，自动化会议纪要生成正逐步走向现实。本文将围绕AutoGLM-Phone-9B模型，手把手带你搭建本地推理服务，并实现一个完整的智能会议纪要生成系统。

本教程属于实践应用类（Practice-Oriented）文章，重点聚焦于技术方案落地、代码实现与常见问题解决，适合具备基础Python和AI模型使用经验的开发者阅读。通过本文，你将掌握如何部署AutoGLM-Phone-9B模型、调用其API接口，并基于真实语音数据完成端到端的会议摘要生成。

1. AutoGLM-Phone-9B简介

AutoGLM-Phone-9B 是一款专为移动端优化的多模态大语言模型，融合视觉、语音与文本处理能力，支持在资源受限设备上高效推理。该模型基于 GLM 架构进行轻量化设计，参数量压缩至 90 亿，并通过模块化结构实现跨模态信息对齐与融合。

相较于传统的单模态大模型，AutoGLM-Phone-9B 的核心优势在于其原生支持多输入模态：

语音输入：可直接接收音频流并转录为文本
图像理解：支持PPT、白板图等视觉内容解析
上下文推理：结合语音与视觉信息进行语义补全与意图识别

这些特性使其特别适用于会议场景下的自动纪要生成任务——不仅能“听懂”发言内容，还能“看懂”演示材料，从而输出更完整、准确的会议总结。

此外，该模型采用KV Cache量化与动态注意力剪枝技术，在保证生成质量的同时显著降低显存占用，使得在消费级GPU上运行成为可能。

2. 启动模型服务

2.1 硬件与环境要求

在部署 AutoGLM-Phone-9B 前，请确保满足以下条件：

项目	要求
GPU型号	NVIDIA RTX 4090 或同等性能及以上
GPU数量	至少2块（用于分布式加载）
显存总量	≥48GB（每卡24GB）
CUDA版本	12.1或以上
Python环境	3.10+，推荐使用conda管理

⚠️注意：由于模型参数量较大（9B），单卡无法承载完整推理负载，必须使用多卡并行策略（如Tensor Parallelism）才能成功加载。

2.2 切换到服务启动脚本目录

假设模型服务脚本已由管理员预装至系统路径/usr/local/bin，我们首先切换至该目录：

cd /usr/local/bin

该目录下应包含如下关键文件：

run_autoglm_server.sh：主启动脚本
config.yaml：模型配置文件（含TP设置、端口、日志路径等）
requirements.txt：依赖库清单

2.3 运行模型服务脚本

执行以下命令启动模型服务：

sh run_autoglm_server.sh

正常启动后，终端将输出类似日志：

[INFO] Loading model: autoglm-phone-9b... [INFO] Using tensor parallel size: 2 [INFO] Initializing pipeline... [INFO] Model loaded successfully on GPU 0 & 1 [INFO] FastAPI server running at http://0.0.0.0:8000

当看到FastAPI server running提示时，说明服务已成功启动，监听地址为http://0.0.0.0:8000。

✅验证点：可通过浏览器访问http://<服务器IP>:8000/docs查看 OpenAPI 文档界面，确认服务是否正常提供 REST 接口。

3. 验证模型服务

为了验证模型服务是否可用，我们将通过 LangChain 调用其 OpenAI 兼容接口发送测试请求。

3.1 准备开发环境

建议在 Jupyter Lab 中进行交互式调试。打开 Jupyter Lab 后，创建一个新的 Notebook。

安装必要依赖包：

pip install langchain-openai openai python-dotenv

3.2 编写测试脚本

使用ChatOpenAI类连接本地部署的 AutoGLM 服务（尽管名为 OpenAI，但可通过自定义base_url实现兼容调用）：

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="autoglm-phone-9b", temperature=0.5, base_url="https://gpu-pod695cce7daa748f4577f688fe-8000.web.gpu.csdn.net/v1", # 替换为实际服务地址 api_key="EMPTY", # 当前服务无需密钥 extra_body={ "enable_thinking": True, # 开启思维链推理 "return_reasoning": True, # 返回中间推理过程 }, streaming=True, # 启用流式输出 ) # 发送测试请求 response = chat_model.invoke("你是谁？") print(response.content)

3.3 预期输出结果

若服务连接正常，模型将返回如下响应（示例）：

我是 AutoGLM-Phone-9B，一个专为移动端优化的多模态大语言模型，能够处理语音、图像和文本输入，擅长会议纪要生成、实时问答和跨模态理解任务。

💡技巧提示：
设置streaming=True可实现逐字输出，提升用户体验；
使用extra_body参数可启用高级功能如“思维链”（CoT），增强复杂任务的推理能力。

4. 实战：构建智能会议纪要生成系统

现在进入核心环节——利用 AutoGLM-Phone-9B 实现从原始音频到结构化会议纪要的完整流程。

4.1 系统架构设计

整体流程分为三个阶段：

语音转录：使用 Whisper 或内置ASR模块将会议录音转为文本
上下文增强：提取PPT或白板图像中的关键信息，补充语境
摘要生成：调用 AutoGLM-Phone-9B 生成结构化纪要

graph LR A[会议录音.mp3] --> B(语音识别 ASR) C[PPT/白板截图] --> D(OCR + 图像理解) B --> E[原始文本] D --> F[上下文信息] E & F --> G[AutoGLM-Phone-9B] G --> H[结构化会议纪要]

4.2 语音转录处理

假设已有会议录音文件meeting_audio.wav，使用 Hugging Face 的whisper进行转录：

pip install git+https://github.com/openai/whisper.git

import whisper # 加载小型模型以加快处理速度 whisper_model = whisper.load_model("small") result = whisper_model.transcribe("meeting_audio.wav", language="zh") transcribed_text = result["text"] print("转录结果：", transcribed_text[:200] + "...")

输出示例：

转录结果：大家好，今天我们召开产品迭代会议，主要讨论Q3版本的功能规划。首先由张伟介绍用户调研结果...

4.3 多模态上下文注入

若会议中展示了PPT，可通过图像理解获取额外信息。假设已截取关键页slide_1.png：

from PIL import Image import base64 def image_to_base64(image_path): with open(image_path, "rb") as img_file: return base64.b64encode(img_file.read()).decode('utf-8') img_b64 = image_to_base64("slide_1.png") # 构造包含图像的请求体 from langchain_core.messages import HumanMessage message = HumanMessage( content=[ {"type": "text", "text": f"请结合以下PPT内容，理解当前会议主题：\n{transcribed_text}"}, {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}} ] ) # 调用模型进行上下文理解 context_summary = chat_model.invoke([message]) print("上下文理解结果：", context_summary.content)

模型可能返回：

本次会议围绕Q3产品功能规划展开，重点讨论了用户反馈中的三大痛点：登录流程复杂、搜索响应慢、个性化推荐不足……

4.4 生成结构化会议纪要

最后一步是生成标准化输出。我们可以定义模板，引导模型按格式输出：

summary_prompt = f""" 请根据以下会议内容，生成一份结构化的会议纪要，包含： - 会议主题 - 主要议题 - 决议事项 - 待办任务（含负责人） 会议内容： {transcribed_text} 请保持语言简洁专业，避免冗余描述。 """ final_summary = chat_model.invoke(summary_prompt) print("【会议纪要】\n", final_summary.content)

示例输出：

【会议纪要】 会议主题：Q3产品功能迭代规划会 主要议题： 1. 用户调研结果汇报 2. 核心功能优先级排序 3. 技术实现可行性评估 决议事项： - 确定将“简化登录流程”列为最高优先级需求 - 搜索性能优化由后端组牵头，目标响应时间 <800ms - 推荐算法引入用户行为埋点，下周提交方案 待办任务： - 张伟：整理完整用户调研报告（截止日期：6月10日） - 李娜：输出搜索模块重构方案（截止日期：6月12日） - 王强：对接推荐团队，协调数据接口（责任人：王强）

5. 常见问题与优化建议

5.1 常见问题排查

问题现象	可能原因	解决方案
启动失败，报CUDA out of memory	显存不足	确保使用2块4090，检查是否有其他进程占用GPU
请求超时	服务未启动或网络不通	使用`curl http://localhost:8000/health`检查健康状态
返回乱码或空内容	输入格式错误	检查`content`是否为合法字符串或多模态列表
流式输出中断	客户端缓冲区过小	增加`timeout`参数或关闭代理

5.2 性能优化建议

启用批处理（Batching）
若需处理多场会议，可在服务配置中开启动态批处理，提高吞吐量。
缓存常用上下文
对固定模板（如公司名称、部门结构）可预注入系统提示词，减少重复传输。
前端流式展示
在Web应用中结合 SSE（Server-Sent Events）实现边生成边显示，提升交互体验。
异步处理长音频
对超过1小时的会议录音，建议分段转录并异步提交摘要任务。

6. 总结

本文详细介绍了如何基于AutoGLM-Phone-9B模型构建一套完整的智能会议纪要生成系统。我们完成了从模型服务部署、接口验证到实际应用场景落地的全流程实践，涵盖了语音识别、多模态理解与结构化文本生成等关键技术环节。

核心收获包括：

工程落地能力：掌握了在多卡环境下部署大型多模态模型的方法；
LangChain集成技巧：学会了通过ChatOpenAI兼容模式调用本地模型；
端到端解决方案设计：实现了从原始音频到可执行待办事项的自动化输出。

未来可进一步扩展方向：

结合 RAG 技术接入企业知识库，提升专业术语理解准确性；
集成日历系统，自动关联会议安排与纪要归档；
支持多语言会议处理，拓展国际化应用场景。

通过本次实践，你已经具备将 AutoGLM-Phone-9B 应用于真实办公场景的能力，为构建下一代智能办公助手打下坚实基础。

💡获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

AutoGLM-Phone-9B实战教程：智能会议纪要生成