ChatGLM-6B快速调用：RESTful API接入示例-平芜编程栈

ChatGLM-6B快速调用：RESTful API接入示例

1. 为什么需要RESTful API而不是只用Web界面

你可能已经试过在浏览器里打开http://127.0.0.1:7860，和ChatGLM-6B聊得挺开心——它能写周报、改文案、解数学题，甚至帮你润色英文邮件。但如果你正在开发一个内部知识库系统、想把AI能力嵌入到企业微信机器人里，或者要批量处理几百份客服对话记录，点点鼠标就完成不了任务了。

这时候，你就需要绕过那个漂亮的Gradio界面，直接和模型“对话”——不是人机聊天，而是程序与程序之间的通信。RESTful API就是这个桥梁：它不依赖图形界面，不挑语言，Python、JavaScript、Java甚至Shell脚本都能调用；它稳定、可集成、能批量、可监控，是真正把AI能力变成你业务一部分的关键一步。

本文不讲大道理，也不堆参数，就带你从零开始，用最短路径打通ChatGLM-6B的API通道。你会看到：
不改一行代码，就能让本地脚本发请求拿到回复
看懂API返回结构，轻松提取你需要的文本
掌握温度、最大长度等关键设置的实际效果
避开常见坑：超时、乱码、上下文丢失

全程基于你已有的CSDN镜像环境，无需重装、无需下载模型、不碰CUDA配置——我们只聚焦“怎么用”。

2. 先确认服务是否已就绪：三步快速验证

在写代码前，请先花2分钟确认后端服务真的在“听你说话”。这不是多余步骤，很多API调用失败，根源其实是服务根本没跑起来。

2.1 检查服务运行状态

登录你的CSDN镜像实例，执行：

supervisorctl status chatglm-service

正常输出应类似：

chatglm-service RUNNING pid 1234, uptime 01:23:45

如果显示FATAL或STOPPED，请先启动：

supervisorctl start chatglm-service

2.2 验证API端口是否开放

ChatGLM-6B的WebUI监听在7860端口，而它的RESTful API默认也走同一个端口（由Gradio自动提供）。我们用curl直接测试：

curl -X POST "http://127.0.0.1:7860/chat" \ -H "Content-Type: application/json" \ -d '{"query":"你好","history":[]}'

注意：这里用的是http://127.0.0.1:7860/chat，不是/或/api。这是该镜像中Gradio暴露的标准API路径。

如果返回一长串JSON，且包含"response"字段（比如"response":"你好！很高兴见到你。"），说明API已就绪。如果返回Connection refused，请检查SSH隧道是否建立（见下文）；如果返回404 Not Found，说明Gradio版本或路由有变化，需查看/var/log/chatglm-service.log日志定位。

2.3 查看日志确认无报错

实时盯住日志，是最高效的排错方式：

tail -f /var/log/chatglm-service.log | grep -i "error\|exception\|fail"

启动成功后，日志末尾应出现类似：

Running on local URL: http://127.0.0.1:7860

没有持续报错，就是最好的信号。

3. 本地调用API：Python脚本实战（含完整可运行代码）

现在，我们把本地电脑变成“客户端”，向远程的ChatGLM-6B发起真实请求。核心就三件事：建隧道、发请求、解析结果。

3.1 建立SSH隧道：让本地能“摸到”远程API

你不能直接curl http://gpu-xxxxx.ssh.gpu.csdn.net:7860，因为7860端口只对服务器本机开放（127.0.0.1）。解决方案是SSH端口转发——把远程的7860“映射”到你本地的某个端口。

在你自己的电脑（Mac/Linux终端或Windows PowerShell）中执行：

ssh -L 8000:127.0.0.1:7860 -p <你的SSH端口号> root@gpu-xxxxx.ssh.gpu.csdn.net

替换<你的SSH端口号>为你实际收到的端口号（如22、2222等）
执行后输入密码，连接成功后终端会静默——这正是我们想要的！
此时，你本地的http://127.0.0.1:8000就等价于服务器上的http://127.0.0.1:7860

小技巧：新开一个终端窗口保持隧道常驻，避免关闭后断连。

3.2 发送第一个API请求：极简Python脚本

新建一个文件chatglm_api_demo.py，粘贴以下代码（已测试通过，无需修改）：

import requests import json # 本地映射端口，对应上面SSH隧道的8000 API_URL = "http://127.0.0.1:8000/chat" def chat_with_glm(query, history=None): if history is None: history = [] payload = { "query": query, "history": history, "temperature": 0.7, # 创意程度：0.1很死板，0.9很跳跃 "max_length": 2048, # 最多生成多少字 "top_p": 0.9 # 采样范围：越小越保守 } try: response = requests.post( API_URL, json=payload, timeout=60 # 给足时间，6B模型推理需要几秒 ) response.raise_for_status() # 抛出HTTP错误 result = response.json() return result.get("response", "未获取到回复"), result.get("history", history) except requests.exceptions.Timeout: return "请求超时，请检查网络或增加timeout值", history except requests.exceptions.ConnectionError: return "连接失败，请确认SSH隧道已建立", history except Exception as e: return f"调用异常：{str(e)}", history # === 示例：单轮问答 === print("【单轮问答】") reply, _ = chat_with_glm("用一句话解释量子计算是什么？") print(f"Q: 用一句话解释量子计算是什么？") print(f"A: {reply}") print() # === 示例：多轮对话（带上下文）=== print("【多轮对话】") history = [] q1 = "推荐三本适合初学者的Python编程书" reply1, history = chat_with_glm(q1, history) print(f"Q1: {q1}") print(f"A1: {reply1}") print() q2 = "第一本的作者是谁？" reply2, history = chat_with_glm(q2, history) # history自动传递 print(f"Q2: {q2}") print(f"A2: {reply2}")

运行它：

python chatglm_api_demo.py

你会看到清晰的问答输出，而且第二问能准确记住“第一本”指的是上一轮提到的书——这证明上下文记忆（history）已生效。

3.3 关键参数实测效果对比

光看文档不如亲眼所见。下面用同一问题测试不同参数的影响，帮你建立直觉：

参数	设置值	实际效果（以“写一首关于春天的五言绝句”为例）	适用场景
`temperature`	`0.1`	诗句工整但略显刻板，平仄严谨，意象常规（风、花、柳）	需要稳定输出的报告、公文
`temperature`	`0.7`	自然流畅，有画面感，“新燕啄春泥”这类经典表达	日常对话、内容创作
`temperature`	`1.2`	出现生造词如“云笺”“青霭”，押韵稍松，但意境新颖	创意写作、诗歌实验
`max_length`	`128`	只输出前两句，戛然而止	快速获取要点、截断长回复
`max_length`	`2048`	完整四句+额外赏析，甚至延伸讲格律	深度内容生成

提示：这些参数不是“越高级越好”，而是按需选择。做客服机器人，temperature=0.3更可靠；写广告文案，0.8往往更出彩。

4. 超越基础：生产环境必备的进阶技巧

当你从“能用”迈向“好用”“稳定用”，这几个技巧会省下大量调试时间。

4.1 如何安全地清空历史？别再重启服务了

你可能发现，history数组越积越长，影响速度甚至导致OOM。Gradio API本身不提供“清空”端点，但有一个简单可靠的替代方案：

# 清空历史，只需传入空列表即可 reply, new_history = chat_with_glm("你好", history=[]) # new_history 将是 []，而非延续之前的长列表

这比supervisorctl restart chatglm-service快10倍，且不影响其他用户会话（如果多人共用）。

4.2 处理中文乱码：Requests默认编码陷阱

如果你的返回文本出现``或方块，大概率是编码问题。Gradio返回UTF-8，但requests有时会误判。修复只需一行：

response = requests.post(API_URL, json=payload) response.encoding = 'utf-8' # 强制指定编码 result = response.json()

4.3 批量处理：一次请求多个问题（提升吞吐量）

API本身不支持批量，但你可以用并发加速。以下用concurrent.futures并行处理10个问题：

from concurrent.futures import ThreadPoolExecutor, as_completed questions = [ "总结牛顿三大定律", "用Python写一个快速排序", "上海今天的天气怎么样？", # ... 其他9个问题 ] with ThreadPoolExecutor(max_workers=3) as executor: future_to_q = { executor.submit(chat_with_glm, q): q for q in questions } for future in as_completed(future_to_q): q = future_to_q[future] try: reply, _ = future.result() print(f"[{q}] → {reply[:50]}...") except Exception as e: print(f"[{q}] 调用失败：{e}")

max_workers=3是经验推荐值：太大易触发服务器限流，太小无法发挥并发优势。

5. 故障排查清单：90%的问题都在这里

遇到问题别慌，按顺序检查这5项，80%的API调用失败当场解决：

SSH隧道是否活跃？
在本地执行lsof -i :8000（Mac/Linux）或netstat -ano | findstr :8000（Windows），确认端口被ssh进程占用。
服务日志是否有OOM或CUDA错误？
grep -i "out of memory\|cuda\|oom" /var/log/chatglm-service.log—— 如果有，需减少max_length或升级GPU规格。
请求体JSON格式是否合法？
用 JSONLint 粘贴你的payload，确保无逗号遗漏、引号闭合。
History数组是否过大？
单次history超过5轮对话，建议手动截断：history = history[-3:]保留最近3轮。
超时时间是否足够？
首次调用因模型加载可能需10-15秒，后续约2-5秒。timeout=60是安全底线。