2018 12 26
2018-12-26
事故类型
异常报警
事故过程
- 在中午12点使用腾讯云的数据迁移工具将生产环境的数据库迁移到测试环境
- 收到了腾讯云的 MongoDB 长耗时报警短信,随后停止了迁移任务。
事故时长
总时长:4小时
事故原因
- 迁移之前没有和 Larry 沟通
- 腾讯云的工单人员恢复这个功能不会影响源实例的读写
事故反思
做运维操作前应当遵守流程规范,提前审批
解决思路
后续这样的迁移操作使用下面的流程: 1. 在腾讯云上回档 MongoDB 实例,回档后选择「转正」,创建出一个有效期为两天的临时实例 2. 从临时实例上拉取数据,同步到测试实例上