78:故障RCA根因分析5Why、鱼骨图实操方法
一、本课学习目标
- 理解Fab EAP故障RCA根因分析核心价值,区分表象故障与根本原因
- 熟练掌握5Why逐层追问分析法,适配通信断线、数据丢失、自动化中断各类EAP故障
- 掌握鱼骨图(人/机/料/法/环)绘制实操,用于复合型叠加批量故障拆解
- 明确RCA报告标准撰写框架,满足工厂复盘、绩效改善、项目追溯要求
- 学会输出短期临时对策、长期根治改善方案,杜绝同类故障重复发生
二、RCA基础概念与工厂应用场景
1. 什么是RCA根本原因分析
仅处理故障表面恢复手段属于临时止损;RCA深挖故障底层根源,从配置、架构、流程、人员、环境维度制定长效改善,避免故障反复复发。
2. EAP强制要求做RCA的故障范围
- 批量整区设备离线,停机时长≥10分钟一级故障
- 数据大面积丢失(Trace/工单/报警),造成工艺追溯缺失
- 自动化率大幅下跌、WIP批次大量堆积
- 同一故障月度重复发生3次及以上
- 版本升级、配置变更引发的大规模产线异常
3. RCA分析两大核心工具
- 5Why:适用于单一链式故障,因果关系清晰的单机/简单批量故障
- 鱼骨图(人机料法环):适用于多因素叠加复合型故障,多维度并行排查根因
三、工具一:5Why逐层追问法完整实操
1. 标准使用逻辑
围绕故障现象连续追问5层“为什么”,直到找到不可再拆解的底层根源(人员流程缺陷、架构设计缺陷、设备固件BUG、标准缺失等),禁止停留在表面操作问题。
2. 5Why分析标准步骤
- 精准描述故障现象(时间、设备范围、异常表现、产能损失)
- 第一层Why:故障为什么发生?(直接表象原因)
- 第二层Why:第一层原因为什么会出现?
- 第三层Why:第二层诱因背后的条件是什么?
- 第四层Why:系统/配置/流程上为什么没有拦截该问题?
- 第五层Why:管理制度、标准、架构上存在什么缺失?
- 依据最终根因输出短期临时对策+长期根治方案
3. EAP实操案例:单台薄膜机每日随机断线3次
现象:薄膜机每日多次离线,Trace数据频繁丢失
Why1:设备频繁断连 → EAP与设备HSMS会话超时断开
Why2:HSMS T3应答超时 → 设备大量Step Trace大报文回复延迟
Why3:Trace测点过多,报文流量过大挤占带宽 → 无统一采集标准,工艺无管控测点清单
Why4:新机导入时未区分高低负载机型,直接套用光刻低负载采集模板 → 无分机型标准化配置规范
Why5:新项目新机上线无EAP负载校验流程,上线前缺少服务器负载评估环节
根本根因:缺少分机型Trace标准化模板,新机导入无负载校验流程
短期对策:临时删减薄膜机非必要DV测点,上调本机T3参数;
长期改善:建立四大工艺机型标准化Trace模板,新机上线前增加负载模拟校验测试用例。
4. 5Why使用避坑要点
- 追问禁止归咎单一人员操作失误,优先查找流程、标准、架构缺陷
- 不可中途停止追问,浅层原因只能临时缓解,无法彻底杜绝复发
- 每一层Why必须有日志、抓包、服务器监控数据作为事实依据,不主观臆断
四、工具二:鱼骨图(人机料法环)实操绘制方法
1. 五大核心维度释义(EAP故障专用)
- 人:运维操作、厂商调试、产线人员误操作、培训缺失、权限管控漏洞
- 机:EAP服务器硬件、交换机、机台控制器、网线、供电、磁盘、网卡
- 料:配置模板、点位表、EAP安装包版本、固件版本、IP规划台账
- 法:运维流程、变更审批流程、新机导入规范、巡检标准、应急处置流程
- 环:厂区电磁干扰、温湿度、网络VLAN隔离、生产流量压力、高负载工况
2. 鱼骨图绘制标准步骤
- 鱼头:填写完整故障现象(如:整区刻蚀机批量随机离线)
- 主骨:分出五大分支:人、机、料、法、环
- 分支细化:每个维度延伸次级小骨,列出所有潜在诱因(结合日志、抓包、监控证据)
- 筛选关键诱因:标记有数据支撑、重复出现的高风险因素
- 定位核心根因:从关键诱因中找到底层系统缺陷,输出改善措施
3. EAP复合型故障鱼骨图实操举例
故障:夜班整区设备批量Trace丢失
- 人:运维未按时巡检磁盘、版本升级未做灰度测试、变更无双人复核
- 机:EAP磁盘容量不足、交换机端口丢包、服务器内存泄漏、硬盘读写故障
- 料:Trace采集模板测点过多、EAP旧版本存在转发BUG、点位表配置错误
- 法:无磁盘使用率告警机制、无Trace负载管控标准、夜间无定时清理日志脚本
- 环:夜间批量Run生产报文流量峰值、多高负载设备共用单台EAP服务器
筛选根因:缺少磁盘自动告警脚本,高负载设备未分布式拆分,无Trace负载管控规范
4. 鱼骨图适用场景
多因素叠加、批量大范围故障、涉及多团队(IT/设备/EAP/工艺)协同分析场景。
五、RCA改善分层标准:临时对策VS长期根治方案
1. 临时对策(快速止损,短期生效)
故障发生后立刻执行,保障产线恢复自动化运行,仅作为过渡手段:
- 临时删减Trace测点、上调HSMS超时参数
- 手动清理磁盘、重启EAP服务、切换主备服务器
- 手动过滤重复抖动报警、临时旁路非核心校验规则
要求:所有临时操作登记台账,班次结束必须撤销恢复标准配置。
2. 长期根治方案(RCA核心输出,永久消除故障)
从根因层面优化体系,杜绝故障重复发生:
- 流程优化:新增巡检项、完善变更审批、新增新机负载校验流程
- 架构优化:拆分EAP服务器、部署主备高可用、独立隔离高负载设备网段
- 标准化优化:分机型统一Trace模板、统一HSMS基线参数、标准化点位表
- 监控优化:新增磁盘/内存/断线自动告警脚本,异常提前预警
- 培训优化:完善运维培训,明确高低负载机型差异化运维规范
六、标准RCA复盘报告必填框架
- 故障基础信息:发生时间、恢复时间、停机总时长、受影响设备、产能损失、故障等级
- 故障完整现象:现场表现、日志/抓包/监控佐证数据
- 分析过程:5Why链式推理 或 鱼骨图多维度诱因梳理
- 直接原因(表层)+ 根本原因(底层系统缺陷)区分说明
- 已执行临时应急处置措施记录
- 长期根治改善方案,明确责任人、完成时限、验收标准
- 验证记录:改善完成后连续观测周期,确认故障零复发
七、RCA分析高频踩坑点
- 只处理表面问题,不深挖系统根因,同类故障反复发生,拉低重复故障KPI
- 无日志、抓包、监控数据支撑,主观猜测故障原因,报告无效无法落地改善
- 改善方案仅停留在临时操作,无长效标准化、架构优化措施
- 批量故障仅使用5Why单一工具,未用鱼骨图排查多维度叠加诱因
- 报告完成后不跟进改善落地、不做后期验证,RCA流于形式
八、RCA运维硬性红线
- 一级批量停机故障、重复频发故障必须24小时内完成RCA复盘报告,禁止拖延
- RCA分析禁止单纯追责操作人员,优先完善流程、架构、标准规避人为失误
- 所有根因判断必须配套原始日志、抓包、服务器资源监控等客观证据
- 仅依靠临时对策长期带故障生产,不落地长期根治方案属于违规运维
- 改善方案到期必须验证闭环,无验证记录的RCA不计入有效复盘
九、本课核心总结
- RCA根因分析分为5Why、鱼骨图两大工具,单一链式故障用5Why,多因素批量复合故障用鱼骨图(人机料法环)。
- 5Why通过五层连续追问直达底层流程/架构缺陷,避免停留在表面故障处置。
- 鱼骨图从人、机、料、法、环五个维度完整拆解所有潜在故障诱因,适合跨团队协同复盘。
- 改善分为临时止损对策和长期根治方案,RCA核心价值是输出长效优化手段,降低重复故障KPI。
- 重大批量故障必须按时输出完整标准化RCA报告,并跟进改善落地与验证闭环。
十、课后小作业
- EAP哪些故障场景强制要求完成RCA根因分析?
- 5Why分析法的核心逻辑是什么,分析到哪一层才算根本原因?
- 鱼骨图五大分析维度(人机料法环)分别对应EAP哪些内容?
- RCA改善措施分为哪两类,两者区别是什么?
- RCA复盘报告必须包含哪七项核心内容?