8.13 Repeated Incident 與 Toil 治理

2026-05-01

大綱

為何 repeated incident 需要獨立節點：單次 post-incident review 解不了系統性問題
識別 repeated pattern：靠 8.9 事故型態庫標籤分類、跨 incident 統計
toil 的定義：重複、手動、無永久價值、可自動化（Google SRE Book）
從 manual runbook 到 automation 的演進路徑
repeated incident 的根因類別：監控盲區、架構缺陷、流程斷點、人力不足
error budget 撥用 toil reduction 的政策
跟 8.5 post-incident review 的差異：8.5 處理單事故、8.13 處理 pattern
跟 6.6 SLO error budget 的整合：error budget 餘額分配給 toil reduction
反模式：每次事故 action items 都是「補 alert / 補 runbook」；toil 視為值班個人問題；repeated pattern 無人擁有

Repeated incident 與 toil 治理是把同型事故反覆發生與重複手動修復當成工程化治理對象，責任是把「一直在處理」轉成「一次修掉」。

這一頁處理的是 pattern 層級問題。單次 post-incident review 只能修一個事件，重複事故需要的是跨事件的抽象與自動化。

判讀 repeated incident 時，先看是否真的重複，再看能否用 automation 吃掉手動成本。

重點訊號包括：