AWS S3 on Tarragon

AWS S3 2017 US-EAST-1 Service Disruption

Thu, 07 May 2026 00:00:00 +0000

2017 年 AWS S3 us-east-1 事故的核心教訓是：內部操作工具若能快速移除共享子系統容量，單一命令輸入錯誤就會變成區域級控制面事故。這類事故的第一責任是限制操作 blast radius，再把恢復順序與通訊入口從受影響依賴中拆出。

事故摘要

AWS 在 2017-02-28 發生 Amazon S3 Northern Virginia（US-EAST-1）服務中斷。官方摘要指出，S3 團隊當時正在排查 billing system 進度偏慢問題；9:37AM PST，一位授權 S3 團隊成員依既有 playbook 執行命令，原本只要移除少量 billing 相關子系統 server，但其中一個輸入值錯誤，導致移除的 server set 比預期大。

被移除的 server 同時支援 S3 的 index subsystem 與 placement subsystem。index subsystem 管理該 region 內所有 S3 object 的 metadata 與位置資訊，GET、LIST、PUT、DELETE 都依賴它；placement subsystem 負責新 object 的 storage allocation，PUT 還需要它才能運作。這兩個子系統被迫完整重啟，導致 S3 API 在重啟期間無法正常服務。

判讀訊號

訊號	事故中代表什麼	第一波決策價值
GET / LIST / PUT / DELETE 同時異常	index subsystem 已成為共同故障點	優先判斷 metadata / index 層，而非單一 API
PUT 恢復晚於 GET / LIST / DELETE	placement subsystem 仍未完成恢復	對外通訊要分操作類型描述恢復狀態
EC2 launch、EBS snapshot、Lambda 受影響	S3 是多服務共享依賴	incident scope 需要擴到 dependent services
Service Health Dashboard 更新受阻	狀態頁管理入口依賴受影響服務	立即切到獨立通訊路徑
重啟時間超過預期	大型子系統多年未完整重啟與驗證	回寫 recovery rehearsal 與 cell partition

事故路徑

S3 團隊排查 billing system 進度偏慢問題。
授權成員依既有 playbook 執行移除少量 server 的操作命令。
命令輸入值錯誤，移除的 server set 比預期大。
被移除容量同時支援 index subsystem 與 placement subsystem。
兩個子系統需要完整重啟，S3 API 在重啟期間無法正常服務。
依賴 S3 的其他 AWS 服務在 US-EAST-1 同步受影響。
AWS 先用 AWS Twitter feed 與 Service Health Dashboard banner text 溝通，直到 SHD individual service status 可以更新。
index subsystem 先恢復足夠容量，再逐步恢復 GET / LIST / DELETE；placement subsystem 完成後，PUT 才恢復正常。

這條路徑顯示：事故起點是內部操作工具缺少數量與容量下限保護，外部流量尖峰在此無關。真正放大事故的是共享子系統、區域依賴與通訊入口對同一服務的依賴。

可回寫控制面

控制面	這次事故暴露的缺口	回寫方向
操作工具安全閘門	單一輸入錯誤可快速移除過多容量	對 remove / drain 類操作加速率、數量與 minimum capacity guardrail
Shared subsystem blast radius	billing 操作影響 index 與 placement	對共享子系統建立 dependency map 與 blast radius review
Recovery rehearsal	大型子系統多年未完整重啟，恢復時間超過預期	把 index / placement 類核心子系統納入定期 restart / restore rehearsal
Cell partition	大型 region 子系統恢復成本過高	把核心子系統拆成較小 cell，降低單次恢復範圍
Status page dependency	SHD 管理入口依賴受影響服務	將 incident communication 工具跨 region 與跨依賴部署
Operation decision log	事中需要記錄重啟順序與 API 恢復差異	在 decision log 中分別記錄 index、placement 與 dependent services 狀態

下一步路由

觀測證據包： 4.20 Observability Evidence Package
實驗安全邊界： 6.20 Experiment Safety Boundary
穩態與恢復完成： 6.22 Steady State Definition
事故通訊： 8.4 Incident Communication
止血與回復： 8.3 Containment / Recovery Strategy
事中決策紀錄： 8.19 Incident Decision Log
證據回寫流程： 8.22 Incident Evidence Write-back

引用源

Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region

AWS 2021 US-EAST-1 Control Plane Degradation

Thu, 07 May 2026 00:00:00 +0000

2021 年 AWS us-east-1 事件的核心教訓是：控制面退化不一定來自服務程式錯誤，內部網路壓力也能讓 API 與依賴鏈條同時失真。這類事故要先確認控制面健康，再決定是否進行服務層回退。

事故摘要

AWS 在 2021-12-07 發生 us-east-1 多服務退化事件。官方資訊指出，內部網路裝置的異常行為導致這個區域的 API 請求與內部服務通訊壅塞，進而造成多個服務管理與控制面能力受影響。部分資料面能力可用，但控制面操作、狀態回報與恢復節奏出現延遲。

這類事故的難點在於，使用者看到的是「很多服務一起怪」，而工程上真正要先判斷的是：共同依賴是否先失真。

判讀訊號

訊號	事故中代表什麼	第一波決策價值
多服務 API 錯誤率同時上升	共享控制面或內部網路層可能失真	優先調查共用控制平面，不先分散逐服務排障
控制操作延遲遠高於資料讀寫	控制面與資料面可用性不同步	對外通訊要分清 control/data plane 差異
區域集中異常（us-east-1）	區域依賴與路由聚集形成單點風險	啟動跨區降載或備援策略
狀態更新節奏出現抖動	事故資訊供應鏈本身受影響	建立固定 cadence 與替代更新通道

事故路徑

區域內部網路層出現異常與壅塞。
控制面 API 與內部依賴通訊受阻。
多服務管理能力與狀態回報受到影響。
部分服務資料面仍可運作，但操作與恢復節奏失真。
團隊逐步收斂網路壓力並恢復控制面可用性。

這條路徑顯示：真正的擴散點在 shared internal network + control plane，不是某個單一服務程式。

可回寫控制面

控制面	這次事故暴露的缺口	回寫方向
Control/Data plane 分離判讀	對外敘述常把兩者混在一起	在通訊與 runbook 明確區分控制面與資料面狀態
區域依賴治理	單區域控制面異常可牽動多服務	把跨區備援與降載條件納入 release 與 incident gate
Shared network health 訊號治理	內部網路異常訊號未被快速上提	補 shared infrastructure 指標到 [4.20 evidence package]
Incident communication cadence	事故中更新節奏易受狀態不完整影響	固定 cadence，並保留「已知 / 未知 / 下一更新時間」欄位

下一步路由

觀測證據包： 4.20 Observability Evidence Package
可觀測性 operating model： 4.18 Observability Operating Model
可靠性準備度： 6.19 Reliability Readiness Review
止血與回復： 8.3 Containment / Recovery Strategy
事故通訊： 8.4 Incident Communication
影響評估： 8.20 Customer Impact Assessment

引用源

Summary of the AWS service event in the Northern Virginia (US-EAST-1) Region

AWS：Control Plane 事故的責任邊界與通訊節奏樣式（2023）

Fri, 08 May 2026 00:00:00 +0000

這篇的核心責任是補齊「控制面事故如何說清楚責任邊界」。和 2017、2021 兩篇相比，這裡重點在事故治理樣式、單一技術細節是次要的：怎麼分辨控制面與資料面、怎麼維持對外更新節奏、怎麼保留決策脈絡。

問題場景

當控制面退化時，最容易出現三種混亂：第一，內部把多個症狀拆成獨立事件；第二，對外更新把控制面和資料面混在一起；第三，決策紀錄只留結論，沒有留下假設與回退條件。這三種混亂會直接拉長復原時間。

判讀訊號

訊號	代表意義	第一波決策價值
多服務管理 API 同步抖動	shared control plane 可能異常	先建立單一 incident thread
資料讀寫可用但控制操作失真	control/data plane 分離已發生	對外更新分兩條狀態敘述
更新頻率不穩、描述反覆修正	evidence pipeline 不穩定	固定更新 cadence 與欄位結構
回退有效但後續仍有殘留警訊	依賴鏈條尚未收斂	增加 dependency-level 驗證步驟

事故治理路徑（樣式）

啟動單一事件線，避免按產品拆散。
明確標註控制面與資料面狀態，分開追蹤。
固定對外 cadence（例如每 30 分鐘）更新「已知 / 未知 / 下一步」。
在 decision log 記錄假設、證據、回退條件與 owner。
收斂後把通訊節奏與責任邊界回寫 runbook 與 evidence package。

可回寫控制面

控制面	暴露缺口	回寫方向
Incident decision log	事中假設與回退條件缺少結構化	強制套用 [8.19] 欄位（假設/證據/條件/責任）
Customer impact assessment	對外影響描述粒度不一致	在 [8.20] 補 control/data plane 影響分欄
Communication cadence	更新節奏受資訊不完整影響	在 [8.4] 固定 cadence 與狀態模板
Evidence package	事後很難回推當時判斷基礎	在 [4.20] 補控制面健康、依賴鏈與更新記錄欄位

下一步路由

事故決策紀錄： 8.19 Incident Decision Log
客戶影響評估： 8.20 Customer Impact Assessment
事故通訊： 8.4 Incident Communication
觀測證據包： 4.20 Observability Evidence Package