推理服务为什么一上流量镜像就开始成本翻倍：从 Shadow Traffic 到分层采样的工程实战-平芜编程栈

一、当镜像流量变成账单噩梦

很多团队上线新模型前，会复制线上流量打到新版本验证。🔥 结果刚打开 Shadow Traffic 开关，下游监控告警：Embedding 服务 QPS 从 2k 飙到 4k，向量数据库 CPU 打满。流量没回传用户，账单已翻倍。

图1：流量镜像链路

这个场景并不罕见。Shadow Traffic 的核心价值是"用真实数据验证新模型"，但实现细节一旦疏忽，就会从质量保障变成成本黑洞。

二、问题拆解：复制不等于分流

⚠️ Shadow Traffic 的本质是"复制而非分流"。原始请求照常走老模型，同时一份完全相同的副本被发送到新模型。这意味着每个请求在链路上执行两次。

更隐蔽的风险是副作用扩散。推理服务返回后常触发写日志、上报指标、调用 Webhook 等异步操作。影子请求不回传答案，却仍触发副作用，导致数据库写入翻倍、消息队列堆积、API 被刷到限流。

[外链图片转存中…(img-MSZGBpv4-1779758825828)]

图2：下游 QPS 翻倍示意

🎯 另一个关键误区是默认采样率。不少框架的 shadow 策略默认是 100%，即所有请求都会被镜像。低峰期问题被掩盖，一旦流量突增，旁路系统会在几分钟内被压垮。

三、实战验证：三层防御策略

3.1 网关层控制采样率

以典型的 vLLM + Envoy 架构为例。开启 shadow traffic 的最小配置长这样：

# Envoy 虚拟主机配置片段shadow_policy:cluster:"new_model_v2"request_policy:shadow:true

这段配置的问题是没有限制比例。正确做法是给 shadow traffic 加上采样率：

shadow_policy:cluster:"new_model_v2"request_policy:shadow:trueshadow_percent:5.0

5% 采样率意味着每 100 个请求只有 5 个进入影子链路。对统计意义上的 P99 延迟，5% 样本量在日活百万级业务中足够。

3.2 应用层隔离副作用

💡 仅改网关配置还不够。推理框架收到请求后会触发异步副作用，影子路径中必须显式禁用。

# 推理入口示例：区分主请求与影子请求definfer(request,is_shadow=False):output=model.generate(request.prompt)ifnotis_shadow:audit_log.write(request,output)# 仅主请求写审计metrics.emit("inference_latency",output.latency)webhook.notify(request.user_id,output.summary)returnoutput

落地时通过 Header 传递影子标记，让中间件跳过副作用：

is_shadow=request.headers.get("X-Shadow-Request","0")=="1"

3.3 采样策略对比

📊 下表对比不同采样策略的影响：

策略	影子 QPS	下游压力	置信度	适用场景
100% 全量镜像	与原流量 1:1	翻倍	最高	低流量核心业务
10% 随机采样	原流量 10%	轻微增长	高	常规 A/B 验证
5% 分层采样	原流量 5%	可控	足够	大规模在线服务
仅 Header 标记	无额外请求	无	无法验证	仅做路由测试