Google：Postmortem Action Item Closure 治理

2026-05-07

Postmortem 的核心責任是把事故轉成會被完成的工程改進，解釋事故只是第一步。Google 的做法重點在 action item closure：每個改進項都要有 owner、完成條件、追蹤節奏與逾期處理規則。

問題場景

很多團隊 postmortem 寫得完整，但事故仍反覆發生。根因通常是 action item 沒有被制度化追蹤，分析能力本身不是瓶頸。當改進工作和日常 feature 競爭同一批資源時，沒有 closure 機制的 action item 很容易被延後到失效。

可靠的 closure 機制要先把 action item 分級，再對應不同完成標準。

分級之後要做三件事：

訊號	判讀重點	對應章節
overdue action-item ratio	是否長期積壓高風險改進	8.5
repeated-incident similarity	同型事故是否仍反覆發生	8.13
gate bypass count	是否在高風險情況下跳過治理閘門	6.8
verification evidence coverage	完成項是否附驗證證據	6.23

最常見陷阱是把 action item 當作「會後待辦」而不是 release policy 的一部分。這會讓高風險改進沒有實際約束力。正確做法是把 P0/P1 項目直接綁到 release gate，未完成時不得放行關聯變更。

先在 8.19 Incident Decision Log 保留 action item 的決策脈絡，再到 8.22 Incident Evidence Write-back 回寫觀測與驗證項目。若要把 closure 變成制度，回到 6.21 Reliability Debt Backlog 進行排序治理。