Skip to content

开发文档 2018 11 23

2018 11 23

2018-11-23

事故类型

全局故障

事故过程

线上数据库失去响应。
因为数据库是单点，所以全站失去响应。
被迫重启数据库，服务恢复。

事故时长

总时长：1小时

事故原因

因为我们重构计划中需要做数据迁移和拆分，一线同学用腾讯云提供的迁移工具做迁移测试，结果迁移工具做了数据库锁定，因为正在访问量高峰，导致全站雪崩。迁移操作暂停后，仍然没有有效解锁，最后只能被迫重启数据库。

事故反思

管理流程执行不到位，有模糊的地方。

这部分近期已经再次强调了管理流程。
缺乏运维思维

前期从一线开发我本人，全都以传统的开发思维在走，都是以解决问题为方向，但是正是这个思维导致了故障恢复时间过长。

因为通常灾难事故发生后，是很难在很短时间内排查出问题，等排查清楚问题再去解决，已经延误很久时间了。

而运维思维与此相反，提前准备好灾备多活链路，制定出灾备应急流程，灾难时直接切换服务，后续再查问题。
没有提前准备灾难流程。

解决思路

加强线上操作审批流程，杜绝随意操作。
运维工作独立化