2018 11 27
2018-11-25
事故类型
全局故障
事故过程
- 凌晨4点50分开始,大量客户投诉系统无法访问。
- 接到投诉后,排查人员立刻根据应急流程,把服务切向备机。
- 随后部分客户表示服务恢复,但是过了一会后,故障再次发生。
- 在经过多方排查后,终于发现可能是17号故障的后续连接修复版本有可能有问题,回退代码后,故障恢复。
事故时长
总时长:2小时
事故原因
17号的事故后,为了解决对rabbitmq的单点依赖问题,上线了一个修复版本,这个版本有bug,会导致rabbitmq的连接数大量增长,进而产生新了的单点故障。
这个故障在经历了两次局部异常后,在27号凌晨全面爆发,先前因为没有监控并没有发现。
事故反思
基础组件类优化,没有经过压力测试,在普通的功能测试中并不能发现此类问题。
解决思路
- 回退版本
- 增加压测重现问题。