2019 04 09
事故类型
局部故障(部分客户 的 station 模块不可用)
事故过程
- 14:36,收到腾讯云的报警
- 14:40,同时收到各种报警:
- [阿里云] station nginx 长耗时告警
- [阿里云] a1-webnginx-access-500
- [5xx监测脚本电话报警] 2 个客户的 station 出现 5xx 报警
事故时长
5 分钟 (14:20 - 14:25)
事故原因
- 客户 ['734', '952'] 出现的问题是发布脚本在执行 clean 操作时错误地删除了正在运行的灰度。具体原因是发布脚本根据 ps -ef 获取正在运行的 UWSGI 进程信息的时候,正则解析有问题,把 station 工程的 feature/stock_iterative 分支误认为是 stock 工程的分支,并清理了它。
解决思路
对发布脚本做出正则解析改动: