AWS 2021 US-EAST-1 Control Plane Degradation

2026-05-07

2021 年 AWS us-east-1 事件的核心教訓是：控制面退化不一定來自服務程式錯誤，內部網路壓力也能讓 API 與依賴鏈條同時失真。這類事故要先確認控制面健康，再決定是否進行服務層回退。

事故摘要

AWS 在 2021-12-07 發生 us-east-1 多服務退化事件。官方資訊指出，內部網路裝置的異常行為導致這個區域的 API 請求與內部服務通訊壅塞，進而造成多個服務管理與控制面能力受影響。部分資料面能力可用，但控制面操作、狀態回報與恢復節奏出現延遲。

這類事故的難點在於，使用者看到的是「很多服務一起怪」，而工程上真正要先判斷的是：共同依賴是否先失真。

訊號	事故中代表什麼	第一波決策價值
多服務 API 錯誤率同時上升	共享控制面或內部網路層可能失真	優先調查共用控制平面，不先分散逐服務排障
控制操作延遲遠高於資料讀寫	控制面與資料面可用性不同步	對外通訊要分清 control/data plane 差異
區域集中異常（us-east-1）	區域依賴與路由聚集形成單點風險	啟動跨區降載或備援策略
狀態更新節奏出現抖動	事故資訊供應鏈本身受影響	建立固定 cadence 與替代更新通道

這條路徑顯示：真正的擴散點在 shared internal network + control plane，不是某個單一服務程式。

控制面	這次事故暴露的缺口	回寫方向
Control/Data plane 分離判讀	對外敘述常把兩者混在一起	在通訊與 runbook 明確區分控制面與資料面狀態
區域依賴治理	單區域控制面異常可牽動多服務	把跨區備援與降載條件納入 release 與 incident gate
Shared network health 訊號治理	內部網路異常訊號未被快速上提	補 shared infrastructure 指標到 [4.20 evidence package]
Incident communication cadence	事故中更新節奏易受狀態不完整影響	固定 cadence，並保留「已知 / 未知 / 下一更新時間」欄位