2018 11 25
2018-11-25
事故类型
异常报警
事故过程
线上出现大量500,持续几分钟后消失。
事故时长
总时长:10分钟
事故原因
17号的事故后,为了解决对rabbitmq的单点依赖问题,上线了一个修复版本,这个版本有bug,会导致rabbitmq的连接数大量增长,进而产生新了的单点故障。
事故反思
基础组件类优化,没有经过压力测试,在普通的功能测试中并不能发现此类问题。
解决思路
- 回退版本
- 增加压测重现问题。
注意,因为当时没有服务监控,这个问题当时没有解决也没有发现。