2021 年 AWS us-east-1 事件的核心教訓是:控制面退化不一定來自服務程式錯誤,內部網路壓力也能讓 API 與依賴鏈條同時失真。這類事故要先確認控制面健康,再決定是否進行服務層回退。

事故摘要

AWS 在 2021-12-07 發生 us-east-1 多服務退化事件。官方資訊指出,內部網路裝置的異常行為導致這個區域的 API 請求與內部服務通訊壅塞,進而造成多個服務管理與控制面能力受影響。部分資料面能力可用,但控制面操作、狀態回報與恢復節奏出現延遲。

這類事故的難點在於,使用者看到的是「很多服務一起怪」,而工程上真正要先判斷的是:共同依賴是否先失真。

判讀訊號

訊號事故中代表什麼第一波決策價值
多服務 API 錯誤率同時上升共享控制面或內部網路層可能失真優先調查共用控制平面,不先分散逐服務排障
控制操作延遲遠高於資料讀寫控制面與資料面可用性不同步對外通訊要分清 control/data plane 差異
區域集中異常(us-east-1)區域依賴與路由聚集形成單點風險啟動跨區降載或備援策略
狀態更新節奏出現抖動事故資訊供應鏈本身受影響建立固定 cadence 與替代更新通道

事故路徑

  1. 區域內部網路層出現異常與壅塞。
  2. 控制面 API 與內部依賴通訊受阻。
  3. 多服務管理能力與狀態回報受到影響。
  4. 部分服務資料面仍可運作,但操作與恢復節奏失真。
  5. 團隊逐步收斂網路壓力並恢復控制面可用性。

這條路徑顯示:真正的擴散點在 shared internal network + control plane,不是某個單一服務程式。

可回寫控制面

控制面這次事故暴露的缺口回寫方向
Control/Data plane 分離判讀對外敘述常把兩者混在一起在通訊與 runbook 明確區分控制面與資料面狀態
區域依賴治理單區域控制面異常可牽動多服務把跨區備援與降載條件納入 release 與 incident gate
Shared network health 訊號治理內部網路異常訊號未被快速上提補 shared infrastructure 指標到 [4.20 evidence package]
Incident communication cadence事故中更新節奏易受狀態不完整影響固定 cadence,並保留「已知 / 未知 / 下一更新時間」欄位

下一步路由

引用源