Java后端接入大模型API的坑-平芜编程栈

AI流式接口上线后踩的5个大坑，以及我们是怎么填上的

最近我们上线了一个基于大模型的AI对话功能，采用流式（streaming）方式返回结果，模拟“打字机”效果提升用户体验。然而上线没多久，就接连暴露出几个严重问题：连接池被打满、成本失控、服务不稳定、上下文爆炸、甚至差点因违规内容被封号……

今天就来复盘这5个典型“坑”，以及我们的应对策略，希望能帮到正在或即将接入大模型的团队。

问题本质：
普通 HTTP 接口响应快（比如 0.5 秒），处理完立刻释放连接；但 AI 流式接口需要持续推送 15–20 秒，在此期间连接一直被占用，无法复用。

算笔账：

而 Tomcat 默认最大连接数只有 200，测试环境低并发看不出问题，一上生产就雪崩。

治标：临时调大 Tomcat 连接池（比如设为 2000）。但代价是内存飙升，且只是延迟问题爆发。
治本：改用响应式架构（Spring WebFlux）。
WebFlux 基于 Netty，采用非阻塞 I/O 和事件驱动模型，一个线程可同时处理多个流式请求——当等待 AI 返回时，线程不会阻塞，而是去处理其他任务。实测几十个线程就能扛住数百并发流式请求。
架构隔离：将 AI 服务独立部署，与主业务解耦。AI 用 WebFlux，主业务继续用 Spring MVC，互不影响，故障也不扩散。

大模型按 Token 计费，用户若恶意刷问或输入超长文本，费用会像水龙头一样哗哗流走。

💡 同时配置成本监控告警：每日 Token 消耗超 500 元立即通知负责人。

国产大模型 API 并非 100% 可靠：DeepSeek 偶尔返回 429（限流），通义千问可能 502（服务异常）。若不做容错，用户直接看到“系统错误”，体验极差。

重试机制：使用Spring Retry，最多重试 3 次，采用指数退避（1s → 2s → 4s）。理由：服务可能短暂过载，稍等再试成功率更高。
熔断机制：集成Resilience4j，连续失败 10 次后自动熔断 5 分钟，避免无效请求浪费资源。
降级兜底：熔断期间返回友好提示：“AI助手暂时繁忙，请稍后再试”，而非冷冰冰的 5xx 错误。

大模型本身无状态，每次调用必须携带完整对话历史，否则 AI “失忆”。但全量带上会导致：

实测：正常聊天 50 轮左右就接近上限。

✅ 用户问“你还记得我一开始说的事吗？”——只要在 24 小时内且摘要保留了关键信息，AI 仍能合理回应。

大模型可能生成政治敏感、暴力、诈骗、违法等内容。一旦用户诱导成功（如“如何制作炸弹”），平台会直接封禁 API 账号，甚至追责。

⚠️ 审核绝不能省！这是合规底线。

模块	推荐方案
部署架构	AI 服务独立部署，使用 Spring WebFlux + Netty
限流	用户级 + 接口级（Sentinel）+ Token 级，三重防护
容错	Spring Retry（指数退避） + Resilience4j（熔断） + 降级文案
上下文管理	滑动窗口 + LLM 摘要 + Redis 存储（24h TTL）
内容安全	输入 & 输出双审核，接入云厂商内容安全 API
监控告警	实时监控 Token 消耗、QPS、错误率、熔断状态