Stop condition 的核心概念是「事前定義何時必須暫停、回退或改路線」。它連接 release gaterollback strategyincident decision log,避免團隊在壓力下用感覺決定是否繼續。

概念位置

Stop condition 位在 migration gatecutover-windowsteady state 之間。Gate 說明能否開始,stop condition 說明開始後看到哪些訊號必須停。

可觀察訊號

系統需要 stop condition 的訊號是:

  • rollout、backfill、replay 或 experiment 會逐批擴大影響
  • 指標短暫變壞時需要知道是觀察、暫停還是回退
  • owner 需要在事故現場快速做一致決策
  • post-incident review 要檢查當時是否該更早停下來

接近真實網路服務的例子

資料庫 migration 可以定義 mismatch_rate >= 0.1% for two consecutive batchesreplication_lag >= 30s for 10 minutes 作為 stop condition。達到條件時,團隊先暫停下一批 backfill 或回到 fallback read,而不是等使用者回報。

設計責任

Stop condition 要包含訊號、門檻、觀察窗口、對應動作與 owner。它要進入 release gateincident decision log,並且要能被 evidence package 支撐。