Skip to content

2018 11 23

2018-11-23

事故类型

全局故障

事故过程

  1. 线上数据库失去响应。
  2. 因为数据库是单点,所以全站失去响应。
  3. 被迫重启数据库,服务恢复。

事故时长

总时长:1小时

事故原因

因为我们重构计划中需要做数据迁移和拆分,一线同学用腾讯云提供的迁移工具做迁移测试,结果迁移工具做了数据库锁定,因为正在访问量高峰,导致全站雪崩。迁移操作暂停后,仍然没有有效解锁,最后只能被迫重启数据库。

事故反思

  1. 管理流程执行不到位,有模糊的地方。

    这部分近期已经再次强调了管理流程。

  2. 缺乏运维思维

    前期从一线开发我本人,全都以传统的开发思维在走,都是以解决问题为方向,但是正是这个思维导致了故障恢复时间过长。

    因为通常灾难事故发生后,是很难在很短时间内排查出问题,等排查清楚问题再去解决,已经延误很久时间了。

    而运维思维与此相反,提前准备好灾备多活链路,制定出灾备应急流程,灾难时直接切换服务,后续再查问题。

  3. 没有提前准备灾难流程。

解决思路

  1. 加强线上操作审批流程,杜绝随意操作。
  2. 运维工作独立化