MTTR 的核心概念是「從事故開始到恢復的平均時間」。它幫助團隊追蹤處置效率趨勢,但不能單獨代表可靠性品質。 可先對照 Incident Severity

概念位置

MTTR 連接 incident severityalertrunbookpost-incident-review。不同等級事故應分開計算,避免指標失真。

可觀察訊號與例子

系統需要 MTTR 的訊號是團隊想驗證事故流程是否改進。若新增 runbook 與升級策略後 MTTR 持續下降,表示流程變更有實際效果。

設計責任

MTTR 指標要搭配樣本數、嚴重度分層與影響範圍一起解讀。它應導向流程改善與演練設計,而不是單純追求數字下降。