智能客服PRD文档的技术实现与架构设计指南-平芜编程栈

智能客服PRD文档的技术实现与架构设计指南

写 PRD 最怕“一句话需求”——“做个机器人回答用户问题”。
落到代码层，才发现缺意图、缺实体、缺兜底、缺灰度、缺监控……
本文把过去三年踩过的坑攒成一份“技术版 PRD 说明书”，让业务语言和技术语言能对齐到同一页。

1. 背景与痛点：PRD 为什么总被开发打回重写

需求模糊：只写“支持语音输入”，没说明方言、采样率、VAD 超时阈值。
技术缺位：业务方不知道 NER 需要标注数据，结果排期里没留“数据准备”里程碑。
验收标准缺失：上线后客服满意度 60%，但 PRD 里没定义“满意”指标，无法灰度。
非功能需求空白：并发 2 k QPS 时 RT 99 线飙到 3 s，PRD 里却只字未提。

一句话：PRD 不写技术假设，开发就会按自己的理解“补全”，返工率 > 40%。

2. 技术选型对比：三条常见路线

维度	自研 NLU 管道	云厂商一体化	开源框架 + 微调
可控性	高，可定制词典、意图	中，黑盒模型	高，可改网络结构
数据成本	高，需 10 k+ 标注/意图	低，厂商预训练	中，迁移学习
延迟	本地 120 ms	网络 300-600 ms	本地 150 ms
费用	人力 + GPU	按调用量计费	一次性 GPU
合规	可私有化	需评估出境数据	可私有化

结论：

金融、医疗——选“自研”或“开源+私有化”，方便审计。
电商大促突发流量——用“云厂商”弹性兜底，再套一层本地缓存。
MVP 试错——直接云厂商，验证 PMF 后再迁移。

3. 核心实现细节：把一句话需求拆成技术 Story

意图识别
- 业务句：“用户问订单” → 拆成意图 code：order_query
- 技术假设：需支持 128 个意图，平均长度 12 词，Top-1 准确率 ≥ 92%
- 输出字段：intent_id、confidence、abnormal_flag（低于阈值走人工）
实体抽取
- 业务句：“查昨天买的手机” → 实体：时间=昨天、商品=手机
- 技术方案：BERT+CRF，标注 BIO 标签；词典冲突时以模型为准
- 兜底：未识别到“订单号”实体时，触发澄清策略：ask_slot
多轮状态管理
- 状态机 or DST？
- 若对话深度 ≤ 3 轮、分支有限，用状态机（Spring StateMachine）可读性高；
- 若动态槽位多，用 DST（Dialog State Transformer），把槽位变长列表。
答案生成
- 检索式：ES 召回 + BERT 重排，适合 FAQ 稳定场景；
- 生成式：T5-Small 微调，适合长尾问题，需设置repetition_penalty=1.2防复读。
非功能需求转译
- 并发：2 k QPS → 单容器 500 QPS，需 4 副本 + HPA 水平扩容
- 灰度：按user_id尾号 0-4 走新模型，5-9 走旧模型
- 可观测：每条日志带trace_id，Fluent Bit→Kafka→Grafana 看意图分布漂移

4. 代码示例：PRD 字段自动生成 DSL

以下脚本读业务方填的 Excel（字段、类型、示例），吐出 JSON Schema 和 SQL DDL，减少手写错误。

# prd2schema.py import pandas as pd from jinja2 import Template def excel_to_schema(file: str, sheet: str): """ 把 PRD 里的“字段定义”页转成 JSON Schema & DDL 约定 Excel 列：field, type, desc, sample, nullable """ df = pd.read_excel(file, sheet_name=sheet) fields = [] for _, row in df.iterrows(): fld = { "name": row["field"], "type": map_type(row["type"]), # varchar/date/int "desc": row["desc"], "sample": row["sample"], "nullable": row["nullable"] } fields.append(fld) # JSON Schema 用于接口校验 schema_tmpl = Template(""" { "type": "object", "properties": { {{ props }} }, "required": [ {{ required }} ] } """) props = [] required = [] for f in fields: if not f["nullable"]: required.append(f'"{f["name"]}"') props.append(f' "{f["name"]}": {{"type": "{f["type"]}", "description": "{f["desc"]}"}}') schema = schema_tmpl.render(props=",\n".join(props), required=",".join(required)) # DDL 用于建表 ddl_tmpl = Template(""" CREATE TABLE chat_session ( {% for f in fields %} {{ f.name }} {{ sql_type(f.type) }} {% if not f.nullable %}NOT NULL{% endif %}, {% endfor %} PRIMARY KEY (session_id) ); """) def sql_type(t): return {"int":"BIGINT", "varchar":"VARCHAR(255)", "date":"DATETIME"}[t] ddl = ddl_tmpl.render(fields=fields, sql_type=sql_type) with open("schema.json", "w", encoding="utf8") as f: f.write(schema) with open("ddl.sql", "w", encoding="utf8") as f: f.write(ddl) if __name__ == "__main__": excel_to_schema("智能客服PRD字段.xlsx", "Session")

跑一遍，开发拿到的就是可直接 import 的校验文件与建表语句，字段遗漏率降到 0。

5. 性能与安全性考量

高并发：
- 意图模型单机 500 QPS@RT 99=120 ms，开 2 线程 + ONNXRuntime，CPU 利用率 70%。
- 超限时把“置信度低”的请求异步降级到检索 FAQ，牺牲 5% 准确率换 2 倍吞吐。
数据安全：
- 敏感词脱敏：正则替换手机号、身份证，用同态加密保存原文到 Vault，审计密钥。
- 对话日志分级存储：热数据 7 天（SSD），冷数据 90 天（对象存储 + AES-256），到期自动回收。
- 合规出境：若用海外云 GPU，需先哈希用户 ID 再传，禁止原文出境。

6. 生产环境避坑指南

标注数据回流
上线后把“模型置信 < 0.6 且人工纠偏”的句子自动落入标注池，每周主动学习一次，否则准确率逐月降 2%。
意图漂移
大促期间用户黑话暴增（“尾款人”“冲鸭”），监控 KL 散度 > 0.15 自动触发“灰度回滚”。
缓存穿透
FAQ 索引放 Redis，Key 用“意图+实体 MD5”，空结果也缓存 30 s，防止同一句反复打模型。
容器启动顺序
依赖配置中心，但 K8s 就绪探针只测端口，导致模型拉配置前就被打入流量。
解决：启动脚本里先 block 拉配置，完成再nc -l 8080。
压测脚本别用单句回放
真实对话有上下文，压测应带session_id序列，否则缓存命中率虚高，线上 RT 翻倍。