Runbook
Runbook
Runbook 的核心概念是「把事故判斷與操作步驟標準化」。它是 alert 的行動指南,描述 on-call 工程師看到特定訊號時如何確認影響、查哪些資料、採取哪些緩解、何時升級,以及如何驗證恢復。
概念位置
Runbook 是 alert 的行動指南。Alert 告訴 on-call 工程師有問題,runbook 告訴他們「收到這個 alert 時該做什麼」。每個 critical alert 應該連到一份 runbook — 缺少 runbook link 的 alert 等於「通知了但不告訴你做什麼」,是 alert fatigue 的起點。
Runbook 也服務於 post-incident review — 事故中實際執行的步驟跟 runbook 預設的步驟比較,差異就是 runbook 需要更新的地方。
使用情境
系統需要 runbook 的訊號是同一類事故每次都靠個人經驗處理。DLQ 快速增加時,runbook 應引導處理者查看錯誤分類、payload 範圍、最近部署、replay 條件與暫停 consumer 的判斷。
設計責任
Runbook 的有效結構:症狀描述、影響評估、診斷步驟(先看哪個 dashboard、查哪些 log)、可能的修復動作(restart / scale / rollback / failover)、升級路徑(15 分鐘內無法解決時通知誰)。維護責任跟 alert 的 owner 一致 — alert rule 改了但 runbook 沒更新是常見的退化。完整設計見 4.4。