GLM-4-9B-Chat-1M代码实例：Python调用本地API实现长文本结构化解析-平芜编程栈

GLM-4-9B-Chat-1M代码实例：Python调用本地API实现长文本结构化解析

1. 引言：为什么你需要一个本地长文本解析器？

想象一下这个场景：你手头有一份300页的PDF技术文档，或者一个包含数万行代码的Git仓库。你需要快速理解它的核心逻辑，提取关键信息，或者回答一些具体问题。传统方法是什么？要么你花几天时间自己啃，要么用那些在线工具，但得把敏感数据上传到别人的服务器。

这就是我们今天要解决的问题。基于智谱AI开源的GLM-4-9B-Chat-1M模型，我们可以搭建一个完全运行在自己电脑上的长文本分析助手。它最厉害的地方有两个：一是能一口气处理长达100万字的文本，二是所有计算都在本地完成，数据绝对安全。

这篇文章，我就手把手带你用Python写一个客户端，去调用这个部署在本地的“超级大脑”，实现长文本的结构化解析。看完你就能自己动手，让AI帮你读文档、分析代码、总结报告。

2. 环境准备与本地服务确认

在开始写代码调用之前，我们得先确保“服务端”——也就是GLM-4-9B-Chat-1M模型已经在你本地跑起来了。

2.1 启动本地模型服务

根据项目说明，模型是通过Streamlit部署的。假设你已经按照指引完成了部署，服务应该运行在本地机器的某个端口上（通常是8080）。打开终端，你可以用下面这个命令检查服务是否健康：

curl http://localhost:8080/health

如果返回一个包含status: ok的JSON，说明服务一切正常。如果没反应，你需要回到项目目录，确认Streamlit应用已经正确启动。

2.2 安装必要的Python库

我们的客户端代码只需要一个非常轻量的库：requests，用来发送HTTP请求。打开你的命令行，安装它：

pip install requests

如果需要对返回的复杂JSON进行更精细的操作，也可以安装json（Python标准库，通常无需额外安装）或pydantic来定义数据结构，但为了简单起见，本文先用基础方法。

好了，环境搞定。接下来我们看看怎么跟这个本地AI“对话”。

3. Python调用本地API基础

本地部署的GLM-4-9B-Chat-1M模型通常会提供一个类似OpenAI API格式的接口。这意味着我们可以用非常简单的HTTP POST请求来发送提示词（Prompt）并获取模型的回复。

3.1 最简调用示例

我们先写一个最简单的函数，看看能不能连通。创建一个名为glm_client.py的Python文件。

import requests import json def ask_glm_simple(prompt_text): """ 向本地GLM-4-9B-Chat-1M服务发送一个简单的文本提示。 """ # 本地服务的API端点地址 url = "http://localhost:8080/v1/chat/completions" # 构建请求头，通常需要指定内容类型 headers = { "Content-Type": "application/json" } # 构建请求体，这是模型能理解的“对话”格式 payload = { "model": "glm-4-9b-chat-1m", # 指定模型名称 "messages": [ { "role": "user", "content": prompt_text } ], "max_tokens": 512, # 控制回复的最大长度 "temperature": 0.7, # 控制回复的随机性，0.7比较平衡 "stream": False # 我们先使用非流式响应，一次拿到全部结果 } try: # 发送POST请求 response = requests.post(url, headers=headers, data=json.dumps(payload)) response.raise_for_status() # 如果请求失败（4xx或5xx），抛出异常 # 解析JSON响应 result = response.json() # 通常，回复内容在 ['choices'][0]['message']['content'] 路径下 reply = result['choices'][0]['message']['content'] return reply except requests.exceptions.RequestException as e: print(f"请求出错: {e}") return None except (KeyError, json.JSONDecodeError) as e: print(f"解析响应出错: {e}") print(f"原始响应: {response.text}") return None # 试试看 if __name__ == "__main__": test_prompt = "你好，请介绍一下你自己。" answer = ask_glm_simple(test_prompt) if answer: print("模型回复：") print(answer)

运行这个脚本，如果一切顺利，你会看到模型的一段自我介绍。这说明你的客户端已经成功连接到了本地AI服务。

3.2 处理长文本输入

GLM-4-9B-Chat-1M的核心优势是长上下文。我们怎么把一整篇文章或代码送进去呢？直接把它拼接到提示词里就行。但要注意，虽然模型能处理很长的输入，但一次性发送极长的文本可能会遇到HTTP请求大小限制或处理超时。对于超长文档，更佳实践是结合其“记忆”能力，进行多轮对话式分析。

下面这个函数演示如何发送一份较长的文本（例如一篇技术文章）给模型进行分析。

def analyze_long_text(long_text, analysis_instruction): """ 发送长文本和具体的分析指令给模型。 参数: long_text: 需要分析的完整文本字符串。 analysis_instruction: 告诉模型要做什么，例如“总结核心要点”、“提取关键术语”等。 """ # 将指令和文本组合成一个清晰的提示 combined_prompt = f""" 请分析以下文本内容。 【分析指令】 {analysis_instruction} 【待分析文本】 {long_text} 请根据上述指令，对文本进行分析并给出结果。 """ return ask_glm_simple(combined_prompt) # 示例：分析一段Python代码 if __name__ == "__main__": sample_code = """ def quick_sort(arr): if len(arr) <= 1: return arr pivot = arr[len(arr) // 2] left = [x for x in arr if x < pivot] middle = [x for x in arr if x == pivot] right = [x for x in arr if x > pivot] return quick_sort(left) + middle + quick_sort(right) # 测试用例 print(quick_sort([3,6,8,10,1,2,1])) """ instruction = "解释这段代码的功能，并指出其时间复杂度。" analysis_result = analyze_long_text(sample_code, instruction) print("代码分析结果：") print(analysis_result)

运行后，模型应该能准确说出这是快速排序算法，并分析其时间复杂度。你可以替换sample_code为任何你感兴趣的文本。

4. 实现结构化解析：从自由文本到规整数据

模型直接回复的是自然语言。但在很多自动化场景下，我们需要的是结构化的数据，比如JSON、列表或表格。这就需要我们设计“结构化提示词”，并解析模型的回复。

4.1 获取JSON格式的输出

我们可以要求模型严格按照JSON格式回复，然后用Python的json.loads()来解析。这大大方便了后续的程序化处理。

def extract_structured_info(text, schema_instruction): """ 要求模型根据指定的schema，从文本中提取结构化信息。 参数: text: 源文本。 schema_instruction: 描述期望的JSON结构。 """ prompt = f""" 请从以下文本中提取信息。 【文本内容】 {text} 【提取要求】 请严格按照以下JSON格式回复，不要添加任何其他解释。 {schema_instruction} 你的回复必须是且仅是一个合法的JSON对象。 """ reply = ask_glm_simple(prompt) if reply: try: # 尝试从回复中解析JSON # 有时模型会在JSON外包裹markdown代码块标记，需要处理 cleaned_reply = reply.strip() if cleaned_reply.startswith('```json'): cleaned_reply = cleaned_reply[7:] # 移除 ```json if cleaned_reply.startswith('```'): cleaned_reply = cleaned_reply[3:] # 移除 ``` if cleaned_reply.endswith('```'): cleaned_reply = cleaned_reply[:-3] # 移除结尾的 ``` structured_data = json.loads(cleaned_reply.strip()) return structured_data except json.JSONDecodeError as e: print(f"解析JSON失败: {e}") print(f"原始回复: {reply}") return None return None # 示例：从产品描述中提取关键属性 if __name__ == "__main__": product_desc = """ 全新一代智能手机X-Pro，搭载了最新的骁龙9 Gen 3处理器，配备6.8英寸AMOLED柔性屏，支持120Hz高刷新率。 后置三摄系统，主摄为5000万像素，支持8K视频录制。电池容量为5000mAh，支持100W有线快充和50W无线快充。 提供三种颜色：曜石黑、冰川银、晨曦金。12GB+256GB版本售价为5999元。 """ schema = """ { "product_name": "产品名称", "cpu": "处理器型号", "screen_size_inch": 屏幕尺寸（数字）, "main_camera_mp": 主摄像头像素（数字）, "battery_mah": 电池容量（数字）, "fast_charge_w": 有线快充功率（数字）, "colors": ["颜色1", "颜色2", ...], "price": 价格（数字） } """ info = extract_structured_info(product_desc, schema) if info: print("提取到的结构化产品信息：") print(json.dumps(info, indent=2, ensure_ascii=False))

这个函数会输出一个漂亮的JSON对象，包含了从描述文本中自动提取的所有关键参数。你可以把这个JSON存到数据库，或者用于比价、生成报表等。

4.2 构建一个会议纪要解析器

让我们做一个更实用的例子：把一段混乱的会议记录文字，自动整理成有标题、参会人、决议事项和待办任务的清晰结构。

def parse_meeting_minutes(raw_minutes): """ 解析原始会议纪要文本，生成结构化摘要。 """ schema = """ { "meeting_topic": "会议主题", "date": "会议日期（YYYY-MM-DD格式）", "attendees": ["参会人1", "参会人2", ...], "key_decisions": [ { "item": "决议事项描述", "owner": "负责人", "deadline": "截止日期（YYYY-MM-DD格式，如无则填null）" } ], "action_items": [ { "task": "待办任务描述", "assignee": "分配人", "due_date": "截止日期（YYYY-MM-DD格式）" } ] } """ instruction = "请从会议记录中提取信息，并填充到上述JSON结构中。如果某些信息在原文中没有明确提及，请根据上下文合理推断或标记为null。" full_prompt = f"{raw_minutes}\n\n{instruction}\n\n请输出JSON：" return extract_structured_info(full_prompt, schema) # 示例：解析一段会议记录 if __name__ == "__main__": meeting_text = """ 2024年5月10日产品需求评审会。 参会人员：张三（产品）、李四（开发）、王五（测试）、赵六（设计）。 会议确定了下一版本的核心功能：1. 用户个人主页改版，由赵六负责设计，5月25日前出稿。2. 消息推送性能优化，李四牵头，本周内给出方案。3. 增加第三方登录（微信、苹果），王五评估测试工作量。 会议决定，项目启动会定于下周一（5月13日）上午10点。 """ parsed_meeting = parse_meeting_minutes(meeting_text) if parsed_meeting: print("结构化会议纪要：") print(json.dumps(parsed_meeting, indent=2, ensure_ascii=False)) # 简单转换为待办列表 print("\n=== 待办任务清单 ===") for idx, item in enumerate(parsed_meeting.get("action_items", []), 1): print(f"{idx}. [{item['assignee']}] {item['task']} (截止: {item['due_date']})")

运行这段代码，你会看到杂乱的会议文字变成了一个层次分明的数据结构，并且自动生成了一个待办清单。这对于需要处理大量会议、文档的团队来说，能节省大量整理时间。

5. 进阶技巧与实战建议

掌握了基础调用和结构化解析后，我们来看看如何用得更好、更稳。

5.1 处理超长文档的策略

虽然模型支持100万tokens，但实践中我们可能遇到更长的文档，或者为了效率想进行分块处理。一个常见的策略是“摘要-问答”链式处理。

分块总结：将超长文档按章节或固定长度分块，让模型对每一块生成一个摘要。
汇总摘要：将所有块的摘要组合起来，让模型生成一个全局总结。
精准问答：基于全局总结或原始分块，针对具体细节进行提问。

这样可以避免一次性处理过大的上下文，也能更精准地定位信息。

5.2 提示词工程优化

模型的输出质量很大程度上取决于你的提问方式。对于解析任务，可以记住这几个小技巧：

角色扮演：让模型扮演一个“专业的数据提取专家”。
示例引导：在提示词中给一两个输入输出的例子（Few-shot Learning），模型模仿能力很强。
输出约束：明确强调“只输出JSON”、“不要解释”，并用三重引号或XML标签来清晰界定指令和文本的边界。
迭代优化：如果第一次结果不理想，可以把不理想的结果和你的修正意见一起，作为新的对话历史发给模型，让它调整。

5.3 错误处理与稳定性

生产环境使用需要考虑更多：

超时设置：为requests.post设置合理的timeout参数，避免程序长时间挂起。
重试机制：对于网络波动或服务临时不可用，可以加入简单的重试逻辑。
回退方案：如果模型无法返回有效JSON，可以尝试让提示词更简单，或者降级为提取纯文本关键句。
日志记录：记录每次请求的提示词、响应和耗时，方便后续分析和优化。

6. 总结

通过上面的代码和例子，我们完成了几件事：

搭建了桥梁：学会了用Python的requests库与本地部署的GLM-4-9B-Chat-1M大模型进行通信。
解锁了核心能力：利用了模型百万长上下文的优势，能够将整篇文档、整段代码送入模型进行分析。
实现了质变：通过设计“结构化提示词”，我们将模型自由的自然语言回复，驯化为规整的、程序可读的JSON数据。这使得AI从“聊天伙伴”变成了一个强大的“信息自动化提取引擎”。

这个本地化方案的优势非常明显：数据隐私有保障，没有网络延迟，且可定制性极高。你可以根据自己业务的需求，轻松修改提示词模板，让它帮你解析法律合同、技术论文、客服日志、用户反馈等等。

下一步，你可以尝试将这些函数封装成一个Python类，加入缓存机制，或者集成到你的自动化工作流（如Airflow、LangChain）中。这个本地AI助手，将成为你处理复杂文本信息的一个得力工具。