停機的核心概念是「服務承諾能力在一段時間內中斷」。停機可能來自部署、基礎設施故障、資料庫服務中斷、憑證失效、外部依賴中斷、資安事件或人為操作失誤。 可先對照 Draining

概念位置

停機討論要回到產品承諾。不同服務的中斷代價不同:登入停機會阻止使用者進入系統,付款停機會直接影響收入,報表停機可能延後內部決策,通知停機可能造成延遲但可補送。 可先對照 Draining

可觀察訊號

系統需要停機應變設計的訊號是服務有明確 SLO、收入影響、法規要求、資料保存責任或大量使用者依賴。停機風險也會在部署頻繁、單點依賴、缺少備份、缺少演練或缺少 rollback 時上升。

接近真實網路服務的例子

票券平台開賣時付款服務停機。系統需要先保護訂單狀態與付款一致性,再決定是否暫停結帳、排隊等候、延長付款期限或開啟公告。若只追求快速恢復流量,可能讓使用者重複付款或訂單狀態混亂。

設計責任

停機 runbook 要定義事件分級、對外溝通、負責人、rollback、備援切換、資料保護與事後復盤。關鍵系統還要預先定義 RTO、RPO、備份驗證、演練頻率與決策權限。