Skip to content

2018 11 19

2018-11-19

事故类型

局部故障

黄马甲机器故障

事故过程

与17号的事故原因一样,因为黄马甲是独立部署,所以修复主线时候没想起来修复这边。黄马甲的机器也出现了一样的问题。

事故时长

总时长:30分钟。

事故原因

异步机器失去响应,进而导致主站模块worker数过高失去响应。

解决思路

去除单点依赖,使依赖模块故障后不影响主站点流程。