2019 01 13
2019-01-13
事故类型
局部故障
事故过程
- 早上 10 点部分用户投诉异步任务处理速度很慢,认为没有问题
- 下午 7 点依然有大量客户投诉采购任务同步慢,再次调查后发现是 hosts 配置错误导致所有消息都补发了
事故时长
约 24 小时
事故原因
周五下午(2019-01-04)将 mqlib 的脚本从 nginx 机器迁移到了 A1-task-worker 机器。后者的 hosts 中 station.cluster.gm 的 IP 有误,导致所有的异步消息都走了补发的流程,有至少 5 分钟的延迟。
事故反思
没有做测试,导致客户投诉后才发现这个问题
解决思路
- 运维结构变动之后应该做一些基础的测试
- 写简单脚本 check hosts
- 是否可以引入一些运维工具,防止手动写 hosts 造成各个机器之间配置不同步