ChatGLM-6B效果展示：软件需求文档生成、测试用例编写真实案例-平芜编程栈

ChatGLM-6B效果展示：软件需求文档生成、测试用例编写真实案例

1. 这不是“AI聊天”，而是你的智能需求工程师

你有没有遇到过这样的场景：产品经理凌晨两点发来一段零散的需求描述，附言“明天一早要给开发评审”；或者测试负责人临时通知“这个新模块下周上线，今天必须出完整测试用例”；又或者刚接手一个老系统，面对几十页模糊的Word文档，连核心功能边界都理不清楚。

过去，这些任务全靠人工硬啃、反复确认、加班补漏。但现在，当你在浏览器里打开ChatGLM-6B的Web界面，输入几句话，几秒后——一份结构清晰、术语规范、覆盖主流程与异常分支的软件需求文档草稿就出现在眼前；再换一个提示词，一组带前置条件、执行步骤、预期结果、数据准备说明的测试用例自动生成，甚至自动标注了优先级和关联的功能点。

这不是概念演示，也不是理想化Demo。本文将全程不加修饰地展示ChatGLM-6B在真实软件工程场景中的实际产出：从原始需求片段出发，到可直接用于内部评审的需求文档，再到可导入TestLink或Xray的测试用例集。所有内容均来自本地部署镜像的真实交互截图与输出文本，不做任何后期美化、删减或人工润色。我们关注的只有一个问题：它写得准不准？能不能用？省不省时间？

2. 镜像能力底座：为什么是它，而不是其他模型

2.1 开源双语模型的工程化落地

本镜像并非简单加载模型权重的“玩具环境”。它是CSDN镜像构建团队针对软件工程场景深度优化的生产级服务，核心搭载的是清华大学KEG实验室与智谱AI联合发布的ChatGLM-6B开源模型。62亿参数规模，在消费级GPU上即可流畅运行；中英双语原生支持，意味着它能准确理解“登录态失效”“幂等性校验”“灰度发布”这类混合中英文的技术术语，不会把“idempotent”误译成“同一性”。

更重要的是，这个镜像完成了关键的“最后一公里”封装：

开箱即用：模型权重已内置在/ChatGLM-Service/model_weights/目录下，启动服务无需等待下载，避免了网络波动导致的初始化失败；
生产级稳定：通过Supervisor守护进程，即使因显存不足偶发崩溃，也能在3秒内自动重启，保障你连续写文档时不中断；
交互友好：Gradio界面不只是“能用”，而是真正“好用”——滑块调节温度（temperature）、顶部按钮一键清空上下文、响应区域自动滚动到底部，连鼠标悬停都有提示文字。

这些细节看似微小，却决定了一个模型是从“能跑起来”走向“敢用在项目里”的分水岭。

2.2 技术栈不是罗列，而是能力支撑点

组件	版本/说明	对软件工程场景的实际意义
核心框架	PyTorch 2.5.0 / CUDA 12.4	充分利用A10/A100显卡的FP16加速能力，单次需求文档生成平均耗时<8秒（实测A10）
推理库	Transformers 4.33.3 / Accelerate	支持量化推理（4-bit），显存占用从13GB降至6GB，让24GB显存机器也能稳定运行
服务管理	Supervisor	日志自动轮转+崩溃重启，避免因长时间运行导致的内存泄漏影响服务可用性
交互界面	Gradio (端口 7860)	界面支持中文输入法全角标点识别，不会因“。”和“.”混淆导致格式错乱

你看，技术参数背后，全是为解决真实痛点而设：快、稳、省、准。

3. 真实案例一：从三行需求到可评审的需求文档

3.1 原始输入：产品经理的随手记录

我们拿到的原始需求，就是产品经理在飞书群里的三行消息：

“用户反馈APP首页加载太慢，尤其WiFi切换到4G时。
要求：首页数据缓存至少30分钟，离线时能显示上次成功加载的内容。
重点：不能影响登录态和购物车数据的实时性。”

没有PRD模板，没有用例编号，只有业务直觉和性能焦虑。

3.2 提示词设计：像给同事提需求一样自然

我们没有用复杂指令，只在Gradio输入框中写下：

你是一名资深软件需求分析师。请根据以下业务描述，生成一份符合ISO/IEC/IEEE 29148标准的软件需求规格说明书（SRS）初稿。要求： - 使用中文，术语规范（如“缓存”“离线模式”“登录态”） - 包含：1）功能概述 2）用户角色 3）详细功能需求（分条目，每条含ID、名称、描述、前置条件、后置条件）4）非功能需求（性能、可靠性） - 输出为纯文本，不使用Markdown格式，不添加解释性文字。 --- 用户反馈APP首页加载太慢，尤其WiFi切换到4G时。 要求：首页数据缓存至少30分钟，离线时能显示上次成功加载的内容。 重点：不能影响登录态和购物车数据的实时性。

关键点：我们没说“用JSON格式”，没写“按表格输出”，而是用工程师之间沟通的自然语言——“符合ISO标准”“分条目”“含ID”。模型立刻理解这是要交付给开发评审的正式文档。

3.3 实际输出：可直接粘贴进Confluence的文本

以下是ChatGLM-6B在8.2秒后生成的完整内容（未做任何删改）：

1）功能概述 实现APP首页数据的智能缓存与离线降级策略，在网络切换（WiFi→4G）或短暂断网时，保障首页核心内容（Banner、商品推荐位）的快速加载与可用性，同时确保用户登录态、购物车等强实时性数据不受缓存机制影响。 2）用户角色 - 普通用户：使用APP浏览首页内容 - 网络环境变化者：在移动网络间切换的用户 3）详细功能需求 REQ-001 缓存有效期控制 名称：首页数据缓存30分钟 描述：APP首次成功加载首页数据后，将数据（不含登录态token、购物车实时数量）缓存至本地，有效期为30分钟。30分钟后自动失效并触发重新加载。 前置条件：用户已成功加载首页数据一次 后置条件：本地缓存文件存在且时间戳有效 REQ-002 离线模式降级显示 名称：离线时显示缓存首页 描述：当检测到网络不可用（HTTP请求超时≥5s）时，APP应立即从本地缓存读取首页数据并渲染，显示“数据已缓存，最后更新：[时间]”提示。 前置条件：本地存在有效缓存（REQ-001已生效） 后置条件：首页UI正常展示，无空白或报错 REQ-003 实时数据隔离 名称：登录态与购物车数据不缓存 描述：缓存机制仅作用于首页静态内容（Banner、推荐算法结果），登录态token、购物车商品数量、未读消息数等字段禁止写入缓存，每次访问均强制调用实时接口。 前置条件：用户已登录 后置条件：购物车图标数字始终为服务器最新值 4）非功能需求 性能：缓存数据加载时间≤200ms（Android 10+设备） 可靠性：离线模式下首页渲染成功率≥99.9%（基于本地缓存完整性校验）

效果评估：

准确识别了“缓存”与“实时数据”的边界，REQ-003专门强调隔离；
自动补充了标准要素：ID编号、前置/后置条件、角色定义；
性能指标具体（200ms）、可靠性量化（99.9%），非空泛描述；
❌ 小瑕疵：未明确缓存存储位置（SQLite vs 文件），但这是可快速人工补充的细节。

4. 真实案例二：从功能点到可执行的测试用例集

4.1 场景切换：测试经理的紧急任务

需求文档刚定稿，测试经理在群里@你：“首页缓存功能下周提测，请今天下班前给出核心测试用例，覆盖正常缓存、超时刷新、离线降级、实时数据不缓存四类场景。”

4.2 提示词：聚焦“可执行”，而非“看起来专业”

我们输入：

你是一名资深测试工程师。请为以下功能点生成测试用例，要求： - 每个用例包含：用例ID、标题、前置条件、执行步骤（编号列表）、预期结果、优先级（P0/P1/P2） - 用例必须可直接执行，步骤明确到点击哪个按钮、等待几秒、检查哪行日志 - 覆盖：1）缓存正常生效 2）缓存超时后强制刷新 3）完全离线时降级显示 4）登录态token不被缓存 - 输出为纯文本，不使用表格，不添加解释。 --- 功能点：APP首页数据缓存30分钟，离线时显示缓存内容，登录态token不缓存。

4.3 实际输出：可复制粘贴进Jira或TestLink的清单

TC-001 验证缓存正常生效 标题：WiFi环境下首次加载首页后，30分钟内再次进入首页不发起网络请求 前置条件：手机连接WiFi，APP已安装，用户已登录 执行步骤： 1. 打开APP，进入首页，观察Network面板（Chrome DevTools） 2. 记录首页API返回时间戳 3. 退出APP，等待25分钟 4. 再次打开APP进入首页 预期结果：Network面板无首页API请求发出；首页内容与步骤2一致；日志显示“[Cache] Hit for home_data” 优先级：P0 TC-002 验证缓存超时后强制刷新 标题：缓存30分钟后再次进入首页，APP应发起新请求并更新缓存 前置条件：TC-001已执行，当前缓存时间戳为T0 执行步骤： 1. 等待至T0+30分05秒 2. 打开APP进入首页 预期结果：Network面板出现首页API请求；返回数据时间戳更新；日志显示“[Cache] Miss, fetching new data” 优先级：P0 TC-003 验证离线降级显示 标题：关闭手机网络后进入首页，APP显示缓存内容及更新提示 前置条件：本地存在有效缓存（TC-001已执行） 执行步骤： 1. 关闭手机WiFi与移动数据 2. 打开APP进入首页 预期结果：首页正常渲染；顶部显示“数据已缓存，最后更新：[TC-001时间]”；Network面板无请求；日志显示“[Offline] Serving from cache” 优先级：P0 TC-004 验证登录态token不缓存 标题：切换账号后，新账号首页仍显示旧账号缓存内容（错误），或token未更新（正确） 前置条件：用户A已登录并生成缓存；用户B为另一账号 执行步骤： 1. 用户A退出登录 2. 用户B登录 3. 进入首页 预期结果：首页Banner/推荐位可能显示用户A缓存内容（允许）；但右上角用户头像、昵称、购物车数量必须为用户B实时数据；抓包确认无token字段从缓存读取 优先级：P0

效果评估：

每个用例都有明确可验证的预期结果（日志关键词、UI文案、抓包行为）；
步骤精确到“等待25分钟”“T0+30分05秒”，杜绝模糊表述；
优先级全部标为P0，符合该功能的核心地位；
TC-004直击缓存隔离的关键风险点，体现对业务逻辑的深度理解。

5. 效果边界与实用建议：什么时候该信它，什么时候该盯紧它

5.1 它做得特别好的三件事

术语一致性极强：在连续对话中，它会记住你定义的缩写。比如你第一次说“SRS”，后续输出自动沿用，不会突然改成“需求文档”；你提到“购物车数量”，它绝不会在测试用例里写成“购物篮商品数”。
结构化输出稳定：只要提示词中明确要求“分条目”“含ID”，95%以上的输出都会严格遵循编号格式，极少出现漏项或错序。
上下文感知精准：在同一个Gradio会话中，你先让它生成SRS，再输入“请基于以上SRS，为REQ-002生成3个边界值测试用例”，它能准确锁定REQ-002的描述，而非胡乱编造。

5.2 你需要人工把关的两个关键点

业务规则盲区：它不知道你们公司规定“缓存更新必须走MQ异步通知”，也不知道“购物车数量超过99要显示‘99+’”。这类强业务约束必须在提示词中显式声明，或生成后人工补全。
安全与合规红线：它不会主动规避敏感操作。曾有测试者输入“生成SQL注入测试用例”，它真的列出了' OR '1'='1等payload。切记：永远不要让它生成涉及权限绕过、密码爆破、数据泄露的用例。