Steady State

Thu, 07 May 2026 00:00:00 +0000

Steady state 的核心概念是「系統在正常或受控退化期間仍應維持的服務能力」。它連接 SLI / SLO、chaos test 與 degradation，讓實驗與事故共用同一組成功條件。

概念位置

Steady state 位在 error budget、blast radius 與 RTO / RPO 之間。它把可靠性承諾轉成可量測訊號，並說明故障期間哪些能力要維持、哪些能力可以受控退化。

可觀察訊號與例子

系統需要 steady state 的訊號是 chaos、failover 或 DR drill 只描述故障動作，缺少成功判準。常見例子是節點被關閉後 health check 仍為綠燈，但 checkout success、queue lag 或 client-side error rate 已經偏離使用者可接受範圍。

設計責任

Steady state 要包含 success rate、latency、queue lag、data correctness、customer impact 與 recovery complete 門檻。它的責任是支援 evidence package、incident decision log 與 game day 判斷實驗是否通過、事故是否恢復。

Steady State on Tarragon

Steady State

概念位置

可觀察訊號與例子

設計責任