Skip to content

2018 11 27

2018-11-25

事故类型

全局故障

事故过程

  1. 凌晨4点50分开始,大量客户投诉系统无法访问。
  2. 接到投诉后,排查人员立刻根据应急流程,把服务切向备机。
  3. 随后部分客户表示服务恢复,但是过了一会后,故障再次发生。
  4. 在经过多方排查后,终于发现可能是17号故障的后续连接修复版本有可能有问题,回退代码后,故障恢复。

事故时长

总时长:2小时

事故原因

17号的事故后,为了解决对rabbitmq的单点依赖问题,上线了一个修复版本,这个版本有bug,会导致rabbitmq的连接数大量增长,进而产生新了的单点故障。

这个故障在经历了两次局部异常后,在27号凌晨全面爆发,先前因为没有监控并没有发现。

事故反思

基础组件类优化,没有经过压力测试,在普通的功能测试中并不能发现此类问题。

解决思路

  1. 回退版本
  2. 增加压测重现问题。