Skip to content

2018 11 17

2018-11-17

事故类型

全局故障

事故过程

  1. 异步机器失去响应。
  2. 主站模块依赖异步机器,主站模块也进而失去响应。

事故时长

总时长:1小时40分钟

  1. 初次失去响应到排查恢复:1个小时左右。
  2. 因为初次没有排查出原因,仅仅是重启恢复了服务,第二次在半小时又复发了。
  3. 第二次大概20分钟恢复了主要模块服务,订单导出之类的依赖异步的功能仍然不可用。
  4. 随后换了一台机器部署异步服务,大概20分钟后,订单导出之类的异步恢复。

事故原因

异步机器失去响应的具体原因是模块内存溢出,被机器自动杀死了进程。

异步模块中有个订单导出生成excel的功能,这个功能依赖了一个第三方生成excel的库,这个库在黄马甲这种数据量特别大(大概一个月30万行数据,50M左右的excel)的商户里内存会意外暴涨。

解决思路

去除单点依赖,使依赖模块故障后不影响主站点流程。