news 2026/5/22 13:00:03

服务雪崩、降级、熔断与服务保护

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
服务雪崩、降级、熔断与服务保护

微服务系统最怕的不是一个服务失败,而是一个服务失败后,调用方一直等待、重试、堆积线程,最后把整条链路拖垮。这就是服务雪崩。

一句话概括:服务雪崩是故障沿调用链扩散;服务降级是给用户一个兜底结果;服务熔断是当失败达到阈值后,暂时不再调用故障服务,直接快速失败或走降级。

正常

超时或异常

服务 A 调用服务 B

服务 B 是否正常

返回真实业务结果

调用失败累积

失败率是否超过阈值

继续尝试调用

打开熔断器

快速失败或执行降级逻辑

保护调用方线程资源

什么是服务雪崩

服务雪崩是指一个服务失败,导致整条链路上的服务都失败。

典型场景:

  1. 服务 D 响应变慢或不可用。
  2. 服务 C 调用 D 时大量等待。
  3. 服务 C 的线程池被占满。
  4. 服务 B 调用 C 也开始超时。
  5. 服务 A 调用 B 继续堆积。
  6. 整条链路不可用。

所以雪崩的本质不是“某个服务挂了”,而是故障没有被隔离,资源被持续拖住

服务降级是什么

服务降级是兜底策略。

比如用户访问文章保存接口,下游服务异常时,不一定要让请求一直卡住,可以返回一个可接受的提示:

您的网络有问题,请稍后再试。

或者在一些非核心场景中,返回默认值、空结果、缓存结果。

降级的目标不是修复下游,而是保护当前服务和用户体验。

常见降级场景:

  • 下游服务超时。
  • 下游服务异常。
  • 当前服务压力过大。
  • 非核心功能临时关闭。

服务熔断是什么

熔断器可以理解成电路里的保险丝。下游持续失败时,熔断器打开,后续请求不再真正调用下游,而是直接快速失败或走降级。

成功

失败

Closed
正常调用

失败率超过阈值

Open
打开熔断器

请求快速失败
走降级

熔断时间结束

Half-Open
放行少量请求

试探请求成功

课程中提到的 Hystrix 规则是:

  • 默认需要手动开启熔断。
  • 10 秒内请求失败率超过 50%,触发熔断。
  • 熔断后快速失败。
  • 每隔 5 秒尝试放行一次请求。
  • 如果下游恢复,就关闭熔断器。
  • 如果下游仍不可用,继续熔断。

降级和熔断有什么区别

对比点服务降级服务熔断
关注点返回兜底结果暂停调用故障服务
触发原因异常、超时、限流、压力过大失败率达到阈值
目标保护用户体验和当前服务隔离下游故障
结果fallback 逻辑快速失败或 fallback

降级是结果策略,熔断是保护机制。实际项目里二者常常配合使用。

限流、降级、熔断的边界

限流、降级、熔断经常一起出现,但它们不是一回事。

手段发生位置解决什么问题典型例子
限流请求入口请求太多,系统扛不住每秒只允许 1000 个请求进入
降级调用失败或压力过大时给用户一个兜底结果返回默认数据、缓存数据、友好提示
熔断远程调用链路中下游持续失败,避免拖垮上游失败率超过阈值后不再调用下游

请求进入系统

流量是否超过阈值

限流
拒绝部分请求

调用下游服务

下游是否持续失败

熔断
暂停真实调用

降级
返回兜底结果

正常返回

可以这样记:限流挡在入口,熔断挡在调用链,降级负责兜底返回

面试回答模板

可以这样答:

服务雪崩是一个服务失败后,导致整条调用链上的服务都失败。比如下游服务超时,调用方线程一直阻塞,线程池被占满后,上游服务也会被拖垮。解决方式主要有降级、熔断和限流。服务降级是下游不可用时返回兜底结果,保护用户体验;服务熔断是监控调用失败率,当失败率达到阈值后打开熔断器,后续请求不再真正调用下游,而是快速失败或走降级,过一段时间再进入半开状态试探恢复。

小结

服务保护这块可以按这条线记:

雪崩是故障扩散,降级是兜底返回,熔断是暂停调用,限流是入口预防。

这几个词看起来像一锅粥,按“故障发生前、发生中、发生后”拆开,就清楚多了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 12:51:05

Claude CLI 缓存陷阱:为什么用第三方模型时 token 会暴涨 10 倍?

一个开发者的真实经历 上周,我收到一位朋友的微信: “我用 Claude Code 接 DeepSeek API,明明代码没怎么变,token 消耗却突然涨了好几倍,一天就把额度用完了。” 这个情况不是个例。在 GitHub 上,至少有 80 多个相关 issue,核心问题都指向同一个点——Claude CLI 默认…

作者头像 李华
网站建设 2026/5/22 12:51:04

为什么AI终于能进车间了?从聊天工具到生产力,这三件事正在发生

中石化车间里的AI 2026年5月,中石化发布了"烽火"工业智能体。 这个智能体不是用来聊天的,而是能直接操作工业软件、分析生产数据、跑仿真。它是石油化工行业第一个真正能进车间的数字专家。 在这之前,AI在工业场景里的应用,大多停留在"数据分析"层面…

作者头像 李华
网站建设 2026/5/22 12:49:40

HCDG开发者训练营 X G-Star Gathering Day 南京站

本次 G-Star Gathering Day 南京站,由 AtomGit 与 华为云开发者发展与支持部 HCDG 联合发起,旨在打破学术与产业、大厂与开发者之间的信息壁垒。我们邀请了来自南京工业大学、华为云、文兜智写以及鸿蒙社区的资深专家,通过 4 场深度技术分享&…

作者头像 李华
网站建设 2026/5/22 12:48:54

AutoLegalityMod:一键生成100%合法宝可梦的终极PKHeX插件

AutoLegalityMod:一键生成100%合法宝可梦的终极PKHeX插件 【免费下载链接】PKHeX-Plugins Plugins for PKHeX 项目地址: https://gitcode.com/gh_mirrors/pk/PKHeX-Plugins 还在为手动编辑宝可梦数据而烦恼吗?想要快速获得对战级宝可梦却担心数据…

作者头像 李华
网站建设 2026/5/22 12:45:36

rk3576 sai tdm调试

RK3576 SAI TDM 调试驱动HAL 层SO 修改SO 编译audio_policy_configuration.xml修改调试&验证调试信息抓取送往驱动前的原始数据dumpsys配置 SAI1 输出 16 声道数据驱动 采用外挂 DSP 的方案,只管输出数据就行 --- a/common/kernel-6.1/arch/arm64/boot/dts/ro…

作者头像 李华
网站建设 2026/5/22 12:45:35

答辩加分秘籍!长江学者特聘教授专属PPT定制

长江学者特聘教授答辩,拼的不只是科研硬实力,PPT更是“第一印象分”关键!很多学术大佬深耕科研多年,成果满满,却栽在PPT上——排版杂乱、重点不突出、学术质感不足,明明实力够硬,却没能在答辩现…

作者头像 李华