2019 03 11
事故类型
异常报警
事故过程
- 监控系统发现 user_log_create 队列消息大量堆积
- 发现 MySQL 的 base 和 sorting 实例的 QPS 异常升高
- 发现客户 万亩良田 的消息数异常增加
- 了解到这个客户因为某些原因正在大量删除订单。在删除老订单的时候,会触发很多补发操作
- 客户似乎停止了删除订单的操作,消息堆积数开始下降
- 后台写脚本帮客户在数据库中删除了订单
事故时长
1.5 hours
事故原因
万亩良田 因为某些原因正在大量删除订单。在删除老订单的时候,会触发很多补发操作
解决思路
修改补发逻辑,一个月前的消息暂时不补发