Skip to content

2019 01 04

2019-01-04

事故类型

异常报警

事故过程

  1. 下午 2:50 上线了新版 mqlib
  2. 一个小时候收到了腾讯云的 A1-station-worker-2 CPU 过高的报警
  3. 通过检查发现 uwsgi 日志中有 mqlib 的报错日志
  4. 回滚了 station 版本

事故时长

2 小时

事故原因

mqlib 中在错误的位置调了 access_logger.info,导致报错。 测试时没有发现接口异常,所以没有发现这个问题。

事故反思

  1. 测试时没有观察 uwsgi 日志
  2. 发布版本后没有观察服务器 CPU 曲线

解决思路

  1. 在测试时,应该观察 uwsgi 和 django 日志
  2. 在腾讯云测试环境测试时,应该有一个基础的服务器性能指标(比如说在 N 个线程进行测试时候服务器的 CPU 应该保持在 M% 的水平),然后以此作为参照物,观察新的版本有没有造成性能损失
  3. 发布重大版本后,应该观察服务器和数据库的负载曲线