Toil
Toil
Toil 的核心概念是「重複、手動、無永久價值、可自動化的工作」。它通常和 on-call 壓力、alert fatigue 與 runbook 綁在一起。
概念位置
Toil 位在 alert-fatigue、runbook 與 post-incident-review 之間。它把反覆出現的手動修復工作,轉成能被自動化或系統性消除的治理對象。
可觀察訊號與例子
系統需要 toil 治理的訊號是值班時間被重複修復工作吃掉,且每次事故後都只是多一個手動步驟。常見例子包括固定重啟、手動 replay、人工清 queue、或每週都要補同一份報表。
設計責任
Toil 治理要定義可自動化優先序、移除條件、owner 與替代路徑。它的目標是把沒有長期價值的重複成本逐步壓下來,消滅所有手工流程既不必要也不現實。