本章的責任是把事故弱點判讀維持在概念上限。核心輸出是事故問題地圖、案例對照與交接條件,讓事故流程在進入 playbook 細節前先完成決策對齊。

概念定位

事故弱點盤點,是從反向壓力看事故流程是否會在分級、指揮、回復與交接上被擊穿,責任是先找出流程設計的脆弱點。

這一頁處理的是事故主幹,不是單一 playbook。只要某個節點會讓事故擴散、延長或失去證據,弱點盤點就要先把它標出來。

核心判讀

判讀事故弱點時,先看啟動是否太慢,再看指揮與交接是否能維持同一條推進線。

重點訊號包括:

  • 分級門檻是否晚於實際擴散節奏
  • 指揮鏈與責任鏈是否可回查
  • containment、回復與驗證是否形成閉環
  • 技術時序與通報時序是否一致

案例對照

  • AWS S3:control-plane 類事故會直接考驗回復與驗證。
  • GitHub:平台級事故常暴露指揮與交接節奏。
  • Cloudflare:edge 型事故容易放大 blast radius 與通訊壓力。

服務環節問題地圖

環節主要問題注意事項優先案例
啟動與分級事件啟動節奏晚於擴散節奏分級門檻要對齊服務影響邊界MGM 2023
指揮與責任角色定義存在但決策鏈延遲指揮鏈與責任鏈要同時可回查ServiceNow 2024
止血與回復containment 完成後仍缺驗證關閉止血、回復、驗證要形成閉環Citrix ADC 後續事件
交接與通訊技術時序與通報時序偏移交接格式要先標準化再演練Change Healthcare 2024

案例對照表(情境 -> 判讀 -> 注意事項 -> 路由章節)

情境判讀注意事項路由章節
事件升級頻繁但啟動延遲分級門檻與實際衝擊脫鉤先對齊啟動條件與升級條件8.1 事故分級與啟動條件
決策會議重複但處置進度緩慢指揮責任鏈可能分散角色責任與交接格式要固定8.2 事故指揮與角色分工
止血後再次出現同類事件驗證關閉條件尚未完成回復與驗證要同批次追蹤8.5 復盤與改進追蹤

到實作前的最後一層

本章在概念層回答的是事故節奏、責任邊界與交接條件。當討論進入值班排班、playbook 指令、通訊模板與工具操作細節時,就代表已進入實作層。