2018 11 17
2018-11-17
事故类型
全局故障
事故过程
- 异步机器失去响应。
- 主站模块依赖异步机器,主站模块也进而失去响应。
事故时长
总时长:1小时40分钟
- 初次失去响应到排查恢复:1个小时左右。
- 因为初次没有排查出原因,仅仅是重启恢复了服务,第二次在半小时又复发了。
- 第二次大概20分钟恢复了主要模块服务,订单导出之类的依赖异步的功能仍然不可用。
- 随后换了一台机器部署异步服务,大概20分钟后,订单导出之类的异步恢复。
事故原因
异步机器失去响应的具体原因是模块内存溢出,被机器自动杀死了进程。
异步模块中有个订单导出生成excel的功能,这个功能依赖了一个第三方生成excel的库,这个库在黄马甲这种数据量特别大(大概一个月30万行数据,50M左右的excel)的商户里内存会意外暴涨。
解决思路
去除单点依赖,使依赖模块故障后不影响主站点流程。