Atlassian 2022 事故的核心教訓是:在多租戶 SaaS 中,誤刪不只是一個資料問題,而是恢復編排、客戶通訊與跨團隊協調同時失效的系統級事件。

事故摘要

Atlassian 官方 PIR 指出,2022-04-05 起有 775 客戶受影響,部分恢復歷時長達 14 天。事故起因是維運腳本使用了錯誤識別資訊,導致站點被刪除,後續需要多工作流並行恢復與驗證。

事件特徵是「影響客戶數有限,但每一個客戶的恢復成本高」,因此恢復策略必須分批與分層。

判讀訊號

訊號事故中代表什麼第一波決策價值
客戶站點直接不可用已是 tenant 級資料生命週期事件立即升級 major incident
恢復進度呈現長尾分布不同租戶恢復難度差異大改分批恢復與分層追蹤
初期通訊管道壓力高客戶影響與資訊需求同步上升固定通訊節奏,區分已知事實與待確認項
後續發現部分資料恢復點不一致恢復策略與資料一致性治理待補增加恢復後審核與補救流程

事故路徑

  1. 維運腳本操作錯誤導致多租戶站點被刪除。
  2. 客戶無法存取產品並建立支援事件。
  3. 事故升級後成立跨職能指揮團隊,24x7 推進恢復。
  4. 恢復以分批方式進行,並持續更新 status 與客戶通訊。
  5. 事後回寫到 soft delete、恢復自動化與通訊流程改善。

可回寫控制面

控制面這次事故暴露的缺口回寫方向
Script safety guardrail腳本輸入與刪除對象校驗不足高風險刪除操作增加雙重驗證與範圍確認
Multi-tenant restore orchestration大規模租戶恢復缺少標準化分批流程建立恢復編排工具與租戶優先序模型
Data restoration consistency恢復點一致性在早期流程中不穩增加恢復後一致性審核與回補流程
Incident communication resilience長事故中的客戶通訊節奏與聯絡資料治理固定 cadence、改善受影響客戶聯絡資訊可得性

下一步路由

引用源