GitHub 2018 Oct21 MySQL Topology Incident

2026-05-07

2018 年 GitHub Oct21 事故的核心教訓是：跨區資料庫在 network partition 後，最困難的是如何在可用性與資料一致性之間做出可回放的決策，切換本身只是其中一步。

事故摘要

GitHub 在 2018-10-21 22:52 UTC 因例行網路設備維護引發 network partition，導致跨區 MySQL replication topology 進入異常狀態。應用層在切換後持續寫入新主站，形成跨區未對齊寫入，事故最終歷時約 24 小時 11 分鐘。

官方 post-incident analysis 指出，團隊選擇 fail-forward，而不是直接切回原主站，原因是要優先保護資料完整性，避免產生更大不一致。

控制面	這次事故暴露的缺口	回寫方向
Cross-DC replication guardrail	partition 後拓撲變更過快	增加拓撲變更保護與人工切換門檻
Consistency-first decision path	可用性與一致性取捨缺標準化準則	在 decision log 固定記錄 fail-forward / fail-back 判準
Backlog recovery strategy	webhook / Pages 積壓恢復節奏缺共識	將 backlog drain 納入 recovery completion 定義
Incident communication granularity	只用單一顏色狀態無法表達部分恢復	對外更新按子服務與恢復階段拆分