8.7 失敗模式審查(Failure Mode Audit)
8.7 失敗模式審查(Failure Mode Audit)
本章的責任是把事故弱點判讀維持在概念上限。核心輸出是事故問題地圖、案例對照與交接條件,讓事故流程在進入 playbook 細節前先完成決策對齊。
概念定位
事故弱點盤點,是從反向壓力看事故流程是否會在分級、指揮、回復與交接上被擊穿,責任是先找出流程設計的脆弱點。
這一頁處理的是事故主幹,不是單一 playbook。只要某個節點會讓事故擴散、延長或失去證據,弱點盤點就要先把它標出來。
核心判讀
判讀事故弱點時,先看啟動是否太慢,再看指揮與交接是否能維持同一條推進線。
重點訊號包括:
- 分級門檻是否晚於實際擴散節奏
- 指揮鏈與責任鏈是否可回查
- containment、回復與驗證是否形成閉環
- 技術時序與通報時序是否一致
案例對照
- AWS S3:control-plane 類事故會直接考驗回復與驗證。
- GitHub:平台級事故常暴露指揮與交接節奏。
- Cloudflare:edge 型事故容易放大 blast radius 與通訊壓力。
服務環節問題地圖
| 環節 | 主要問題 | 注意事項 | 優先案例 |
|---|---|---|---|
| 啟動與分級 | 事件啟動節奏晚於擴散節奏 | 分級門檻要對齊服務影響邊界 | MGM 2023 |
| 指揮與責任 | 角色定義存在但決策鏈延遲 | 指揮鏈與責任鏈要同時可回查 | ServiceNow 2024 |
| 止血與回復 | containment 完成後仍缺驗證關閉 | 止血、回復、驗證要形成閉環 | Citrix ADC 後續事件 |
| 交接與通訊 | 技術時序與通報時序偏移 | 交接格式要先標準化再演練 | Change Healthcare 2024 |
案例對照表(情境 -> 判讀 -> 注意事項 -> 路由章節)
| 情境 | 判讀 | 注意事項 | 路由章節 |
|---|---|---|---|
| 事件升級頻繁但啟動延遲 | 分級門檻與實際衝擊脫鉤 | 先對齊啟動條件與升級條件 | 8.1 事故分級與啟動條件 |
| 決策會議重複但處置進度緩慢 | 指揮責任鏈可能分散 | 角色責任與交接格式要固定 | 8.2 事故指揮與角色分工 |
| 止血後再次出現同類事件 | 驗證關閉條件尚未完成 | 回復與驗證要同批次追蹤 | 8.5 復盤與改進追蹤 |
到實作前的最後一層
本章在概念層回答的是事故節奏、責任邊界與交接條件。當討論進入值班排班、playbook 指令、通訊模板與工具操作細節時,就代表已進入實作層。