Rerun 的核心概念是「用明確條件重新執行同一段流程」。它和 Flaky Test 的治理有關,也常依賴 Checkpoint 判斷接續位置。

概念位置

Rerun 位在測試失敗、部署預演失敗、資料任務失敗或 pipeline repair 之後,負責判斷重新執行是否會改變輸出或擴大副作用。

可觀察訊號

  • 同一 commit 的測試結果前後不一致。
  • 資料任務部分成功、部分失敗。
  • 部署 dry run 失敗後需要確認是否可安全再跑。

接近真實服務的例子

每日營收 pipeline 第三個 partition 寫入失敗。團隊先確認前兩個 partition 已完成且輸出可覆寫,再指定 run id 與 partition 範圍 rerun,避免重複計算全部歷史資料。

設計責任

Rerun 要定義可重跑條件、輸出覆寫規則、idempotency、觀測結果與人工審核門檻,讓「再跑一次」成為受控恢復策略。