Skip to content

2019 01 05

2019-01-05

事故类型

局部故障

事故过程

  1. 早上 10 点部分用户投诉异步任务处理速度很慢,认为没有问题
  2. 下午 7 点依然有大量客户投诉采购任务同步慢,再次调查后发现是 hosts 配置错误导致所有消息都补发了

事故时长

约 24 小时

事故原因

周五下午(2019-01-04)将 mqlib 的脚本从 nginx 机器迁移到了 A1-task-worker 机器。后者的 hosts 中 station.cluster.gm 的 IP 有误,导致所有的异步消息都走了补发的流程,有至少 5 分钟的延迟。

事故反思

没有做测试,导致客户投诉后才发现这个问题

解决思路

  1. 运维结构变动之后应该做一些基础的测试
  2. 写简单脚本 check hosts
  3. 是否可以引入一些运维工具,防止手动写 hosts 造成各个机器之间配置不同步