2018 11 19
2018-11-19
事故类型
局部故障
黄马甲机器故障
事故过程
与17号的事故原因一样,因为黄马甲是独立部署,所以修复主线时候没想起来修复这边。黄马甲的机器也出现了一样的问题。
事故时长
总时长:30分钟。
事故原因
异步机器失去响应,进而导致主站模块worker数过高失去响应。
解决思路
去除单点依赖,使依赖模块故障后不影响主站点流程。
局部故障
黄马甲机器故障
与17号的事故原因一样,因为黄马甲是独立部署,所以修复主线时候没想起来修复这边。黄马甲的机器也出现了一样的问题。
总时长:30分钟。
异步机器失去响应,进而导致主站模块worker数过高失去响应。
去除单点依赖,使依赖模块故障后不影响主站点流程。