Skip to content

2018 11 25

2018-11-25

事故类型

异常报警

事故过程

线上出现大量500,持续几分钟后消失。

事故时长

总时长:10分钟

事故原因

17号的事故后,为了解决对rabbitmq的单点依赖问题,上线了一个修复版本,这个版本有bug,会导致rabbitmq的连接数大量增长,进而产生新了的单点故障。

事故反思

基础组件类优化,没有经过压力测试,在普通的功能测试中并不能发现此类问题。

解决思路

  1. 回退版本
  2. 增加压测重现问题。

注意,因为当时没有服务监控,这个问题当时没有解决也没有发现。