Postmortem 的核心責任是把事故轉成會被完成的工程改進,解釋事故只是第一步。Google 的做法重點在 action item closure:每個改進項都要有 owner、完成條件、追蹤節奏與逾期處理規則。

問題場景

很多團隊 postmortem 寫得完整,但事故仍反覆發生。根因通常是 action item 沒有被制度化追蹤,分析能力本身不是瓶頸。當改進工作和日常 feature 競爭同一批資源時,沒有 closure 機制的 action item 很容易被延後到失效。

治理機制

可靠的 closure 機制要先把 action item 分級,再對應不同完成標準。

分級風險型態最低完成標準
P0重複事故高機率再發生需在下個 release 週期前完成並驗證
P1會放大事故影響面要有落地日期與 gate 條件
P2提升診斷或操作效率可排入 backlog,但要保留追蹤節點

分級之後要做三件事:

  1. 為每個 action item 指派單一 owner。
  2. 寫出可驗證完成條件(不是「優化」「強化」這類抽象字)。
  3. 把 closure 狀態納入固定 review cadence。

可觀測訊號

訊號判讀重點對應章節
overdue action-item ratio是否長期積壓高風險改進8.5
repeated-incident similarity同型事故是否仍反覆發生8.13
gate bypass count是否在高風險情況下跳過治理閘門6.8
verification evidence coverage完成項是否附驗證證據6.23

常見陷阱

最常見陷阱是把 action item 當作「會後待辦」而不是 release policy 的一部分。這會讓高風險改進沒有實際約束力。正確做法是把 P0/P1 項目直接綁到 release gate,未完成時不得放行關聯變更。

下一步路由

先在 8.19 Incident Decision Log 保留 action item 的決策脈絡,再到 8.22 Incident Evidence Write-back 回寫觀測與驗證項目。若要把 closure 變成制度,回到 6.21 Reliability Debt Backlog 進行排序治理。

引用源