Skip to content

2018 12 26

2018-12-26

事故类型

异常报警

事故过程

  1. 在中午12点使用腾讯云的数据迁移工具将生产环境的数据库迁移到测试环境
  2. 收到了腾讯云的 MongoDB 长耗时报警短信,随后停止了迁移任务。

事故时长

总时长:4小时

事故原因

  • 迁移之前没有和 Larry 沟通
  • 腾讯云的工单人员恢复这个功能不会影响源实例的读写

事故反思

做运维操作前应当遵守流程规范,提前审批

解决思路

后续这样的迁移操作使用下面的流程: 1. 在腾讯云上回档 MongoDB 实例,回档后选择「转正」,创建出一个有效期为两天的临时实例 2. 从临时实例上拉取数据,同步到测试实例上