人工智能实战:大模型系统如何做 CI/CD?从前期发现“Prompt 改坏了”到自动评测、发布门禁与回滚
一、问题场景:代码没改,Prompt 改了,线上却出事故了
传统软件系统里,CI/CD 通常围绕代码:
代码提交 ↓ 单元测试 ↓ 构建镜像 ↓ 部署但大模型系统不一样。
很多关键行为来自:
1. Prompt 2. 模型版本 3. RAG 配置 4. rerank 参数 5. 工具描述 6. 安全策略 7. 知识库版本这些东西不一定在代码里,却会直接影响线上结果。
我遇到过一个真实问题:
开发没有发版,但运营改了一版 Prompt:
回答要更自然,可以适当补充背景信息。上线后出现:
1. 无答案问题开始强行回答 2. RAG 回答引用变少 3. token 成本上升 4. 部分 JSON 输出解析失败从代码发布系统看:
没有任何变更。但从