Skip to content

2019 03 11

事故类型

异常报警

事故过程

  1. 监控系统发现 user_log_create 队列消息大量堆积
  2. 发现 MySQL 的 base 和 sorting 实例的 QPS 异常升高
  3. 发现客户 万亩良田 的消息数异常增加
  4. 了解到这个客户因为某些原因正在大量删除订单。在删除老订单的时候,会触发很多补发操作
  5. 客户似乎停止了删除订单的操作,消息堆积数开始下降
  6. 后台写脚本帮客户在数据库中删除了订单

事故时长

1.5 hours

事故原因

万亩良田 因为某些原因正在大量删除订单。在删除老订单的时候,会触发很多补发操作

解决思路

修改补发逻辑,一个月前的消息暂时不补发