Fastly 2021 事故的核心教訓是:在全球 edge 平台中,一個有效配置也可能觸發平台潛藏 bug,造成分鐘級全球擴散。

事故摘要

Fastly 官方摘要指出,2021-06-08 的全球 outage 由平台既有軟體 bug 觸發,觸發條件來自一個有效的客戶配置變更。故障在短時間內影響大範圍 edge 節點,並在隔離配置後逐步恢復。

這類事故不是「客戶配置錯誤」或「平台單點故障」的二選一,而是配置與平台行為交互下的系統性風險。

判讀訊號

訊號事故中代表什麼第一波決策價值
全球 503 快速上升edge 平台共同執行路徑失效立即轉全域 incident,不走單區排障
偵測時間短但影響面巨大擴散速度高於人工逐站處理能力優先做全域隔離與停傳播動作
關閉觸發配置後快速回線觸發路徑明確、回退有效建立配置觸發型事故的快速回退標準
事故前已有潛藏 bug變更驗證對交互條件覆蓋不足回寫配置驗證與灰度策略

事故路徑

  1. 平台先前部署引入可被特定條件觸發的 bug。
  2. 客戶推送有效配置,觸發 bug。
  3. 大範圍 edge 節點回應錯誤,形成全球 outage。
  4. 團隊定位並隔離觸發配置,服務逐步恢復。
  5. 事後回寫驗證、隔離與恢復流程。

可回寫控制面

控制面這次事故暴露的缺口回寫方向
Config-trigger safety gate有效配置也可觸發平台 bug對配置與平台交互條件增加回放測試
Global propagation brake擴散速度遠快於局部人工止血建立全域停傳播與快速隔離機制
Canary and staged rollout交互條件在前期驗證未被涵蓋強化灰度策略與跨場景驗證
Incident communication timing影響廣但恢復快,對外節奏需精準以固定 cadence 說明影響範圍與恢復進度

下一步路由

引用源