2019 01 04
2019-01-04
事故类型
异常报警
事故过程
- 下午 2:50 上线了新版 mqlib
- 一个小时候收到了腾讯云的 A1-station-worker-2 CPU 过高的报警
- 通过检查发现 uwsgi 日志中有 mqlib 的报错日志
- 回滚了 station 版本
事故时长
2 小时
事故原因
mqlib 中在错误的位置调了 access_logger.info,导致报错。 测试时没有发现接口异常,所以没有发现这个问题。
事故反思
- 测试时没有观察 uwsgi 日志
- 发布版本后没有观察服务器 CPU 曲线
解决思路
- 在测试时,应该观察 uwsgi 和 django 日志
- 在腾讯云测试环境测试时,应该有一个基础的服务器性能指标(比如说在 N 个线程进行测试时候服务器的 CPU 应该保持在 M% 的水平),然后以此作为参照物,观察新的版本有没有造成性能损失
- 发布重大版本后,应该观察服务器和数据库的负载曲线