基于Django的智能客服系统实战：从架构设计到生产环境部署-平芜编程栈

背景与痛点：传统客服系统的局限性，智能客服的市场需求

去年帮一家做 SaaS 的小公司做客服升级，老系统用的是“工单+人工排队”模式：用户提交问题后，先进入 MySQL 工单表，客服在后台按时间顺序领取。高峰期并发一高，客服界面直接卡死，平均响应 8 分钟，丢单率 18%。老板一句“能不能让机器人先挡 80% 重复问题？”直接催生了这套基于 Django 的智能客服项目。

中小团队最怕“一上来就堆大机器”，所以目标很明确：

单机 QPS 先扛 200，后续可横向扩容
常见 FAQ 机器人秒回，复杂问题无缝转人工
一周上线，代码可交接，别让后人骂街

技术选型：Django vs Flask 性能对比，NLP 引擎选择

Django vs Flask
基准环境：4C8G 容器，WSGI（Gunicorn + Gevent），同配 Redis 缓存一条 500 字节 JSON。
- 空路由 Hello world：Django 2.2 2 700 RPS，Flask 2.0 3 100 RPS，差距 12%，可忽略。
- 带 ORM 查询（auth_user 表 10 万行，索引命中）：Django 1 950 RPS，Flask-SQLAlchemy 1 250 RPS。Django ORM 连接池与原生 QuerySet 优化反而更快。
- 后台管理、权限、ORM 自带，省掉“自己拼蓝图”时间，对一周上线极友好。结论：选 Django。
NLP 引擎
- Rasa：本地训练，数据隐私好，CPU 推理 50 ms，但训练脚本重，需要 GPU 机器。
- Dialogflow：接入快，中文支持尚可，调用延迟 250 ms，按量计费，小团队怕账单失控。
  最终折中：FAQ 用 Rasa 预训练模型，兜底“转人工”走 Django 逻辑，既省钱又可控。

核心实现

1. Django 模型设计（对话记录、知识库）

# models.py from django.db import models from django.contrib.auth import get_user_model User = get_user_model() class KBItem(models.Model): """知识库：一问一答，支持相似问法""" question = models.CharField(max_length=256, db_index=True) answer = models.TextField() category = models.CharField(max_length=64, db_index=True) created_at = models.DateTimeField(auto_now_add=True) class Meta: indexes = [ models.Index(fields=["category", "-created_at"]), ] class Dialogue(models.Model): """对话流水""" CHANNELS = (("web", "Web"), ("wechat", "WeChat"), ("app", "APP")) user = models.ForeignKey(User, on_delete=models.CASCADE) channel = models.CharField(max_length=16, choices=CHANNELS) user_msg = models.TextField() bot_answer = models.TextField() intent = models.CharField(max_length64, blank=True, db_index=True) created_at = models.DateTimeField(auto_now_add=True) class Meta: indexes = [models.Index(("user", "-created_at"))] # 查用户历史

2. 异步任务处理（Celery + Redis）

Django 同步视图做意图识别会阻塞 50~250 ms，高峰期并发一上来直接爆炸。用 Celery 把 NLP 推理拆出去，视图立即返回“处理中”状态，前端轮询即可。

# tasks.py from celery import shared_task from rasa.nlu.model import Interpreter import os interpreter = Interpreter.load(os.getenv("RASA_MODEL_PATH")) # 单例加载，避免重复 IO @shared_task def nlu_predict(text: str, dialogue_id: int): """异步意图识别 + 置信度过滤""" result = interpreter.parse(text) intent, conf = result['intent']['name'], result['intent']['confidence'] if conf < 0.5: intent = "fallback" # 回写数据库 from .models import Dialogue Dialogue.objects.filter(pk=dialogue_id).update(intent=intent) return intent

时间复杂度：O(L) L=文本长度，空间复杂度：O(V) V=词表大小，可接受。

3. REST API 设计（DRF）

# views.py from rest_framework import viewsets, status from rest_framework.response import Response from .models import Dialogue, KBItem from .serializers import DialogueSerializer, KBSerializer from .tasks import nlu_predict class ChatViewSet(viewsets.ViewSet): def create(self, request): user_msg = request.data.get("msg") channel = request.data.get("channel", "web") if not user_msg: return Response({"error": "msg required"}, status=status.HTTP_400_BAD_REQUEST) # 1. 先落库 dlg = Dialogue.objects.create( user=request.user, channel=channel, user_msg=user_msg, bot_answer="", intent="", ) # 2. 触发异步预测 nlu_predict.delay(user_msg, dialogue.id) # 3. 立即返 token，前端拿 token 轮询 /api/chat/<id>/result/ return Response({"dialogue_id": dialogue.id}, status=status.HTTP_201_CREATED)

代码示例：意图识别、对话状态管理

轮询接口：

def retrieve(self, request, pk=None): dlg = get_object_or_404(Dialogue, pk=pk, user=request.user) if dlg.intent == "": return Response({"status": "processing"}) if dlg.intent == "fallback": answer = "转人工客服中，请稍候..." else: # 精准匹配知识库 kb = KBItem.objects.filter(category=dlg.intent).first() answer = kb.answer if kb else "抱歉，暂无答案" return Response({"answer": answer, "intent": dlg.intent})

状态机极简：processing → fallback/hit → done，前端根据 status 渲染不同气泡。

性能优化

负载测试
工具：Locust，脚本 1 000 并发用户，RPS 目标 200。
瓶颈：首次命中数据库，KBItem 表 10 万行，LIKE 查询 600 ms。
解决：
- 加 GIN 索引（PostgreSQL）CREATE EXTENSION pg_trgm; CREATE INDEX CONCURRENTLY ON kbitem USING gin (question gin_trgm_ops);降到 30 ms。
- 热点数据整表缓存 Redis，TTL 300 s，QPS 再提 35%。
ORM 懒加载
查对话历史时，仅select_related('user')，避免 N+1；列表页用only('user_msg', 'bot_answer', 'created_at')，网络包大小降 60%。
WSGI 优化
Gunicorn 配 Gevent worker：
gunicorn config.wsgi:application -k gevent -w 4 --worker-connections 1000
同步 worker 在 200 并发直接 502，Gevent 后 1 000 并发 CPU 65%，仍有富余。

生产环境指南

日志监控配置
- Django 使用dictConfig拆分access.log/error.log，JSON 格式方便 Loki 收集。
- 关键字段：request_id、user_id、intent、latency，便于 Jaeger 全链路追踪。
敏感信息过滤
- 手机号、身份证走正则脱敏：
  re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', text)
- 日志 sink 前再跑一遍django-ratelimit的sensitive_post_processor，防止 GDPR 罚款。
限流策略
- 单 IP 20 r/min，用户 JWT 后 60 r/min，用 Redis + Lua 脚本保证原子性：
  local c = redis.call('incr', KEYS[1]) if c == 1 then redis.call('expire', KEYS[1], 60) end if c > tonumber(ARGV[1]) then return 1 else return 0 end
- 超限返回 429，前端回退排队页，保护后端 NLP 推理资源。