Skip to content

2019 04 09

事故类型

局部故障(部分客户 的 station 模块不可用)

事故过程

  1. 14:36,收到腾讯云的报警
  2. 14:40,同时收到各种报警:
  3. [阿里云] station nginx 长耗时告警
  4. [阿里云] a1-webnginx-access-500
  5. [5xx监测脚本电话报警] 2 个客户的 station 出现 5xx 报警

事故时长

5 分钟 (14:20 - 14:25)

事故原因

  1. 客户 ['734', '952'] 出现的问题是发布脚本在执行 clean 操作时错误地删除了正在运行的灰度。具体原因是发布脚本根据 ps -ef 获取正在运行的 UWSGI 进程信息的时候,正则解析有问题,把 station 工程的 feature/stock_iterative 分支误认为是 stock 工程的分支,并清理了它。

解决思路

对发布脚本做出正则解析改动: