2018 11 23
2018-11-23
事故类型
全局故障
事故过程
- 线上数据库失去响应。
- 因为数据库是单点,所以全站失去响应。
- 被迫重启数据库,服务恢复。
事故时长
总时长:1小时
事故原因
因为我们重构计划中需要做数据迁移和拆分,一线同学用腾讯云提供的迁移工具做迁移测试,结果迁移工具做了数据库锁定,因为正在访问量高峰,导致全站雪崩。迁移操作暂停后,仍然没有有效解锁,最后只能被迫重启数据库。
事故反思
-
管理流程执行不到位,有模糊的地方。
这部分近期已经再次强调了管理流程。
-
缺乏运维思维
前期从一线开发我本人,全都以传统的开发思维在走,都是以解决问题为方向,但是正是这个思维导致了故障恢复时间过长。
因为通常灾难事故发生后,是很难在很短时间内排查出问题,等排查清楚问题再去解决,已经延误很久时间了。
而运维思维与此相反,提前准备好灾备多活链路,制定出灾备应急流程,灾难时直接切换服务,后续再查问题。
-
没有提前准备灾难流程。
解决思路
- 加强线上操作审批流程,杜绝随意操作。
- 运维工作独立化