Atlassian 2022 April Multi-tenant Deletion Outage

2026-05-07

Atlassian 2022 事故的核心教訓是：在多租戶 SaaS 中，誤刪不只是一個資料問題，而是恢復編排、客戶通訊與跨團隊協調同時失效的系統級事件。

事故摘要

Atlassian 官方 PIR 指出，2022-04-05 起有 775 客戶受影響，部分恢復歷時長達 14 天。事故起因是維運腳本使用了錯誤識別資訊，導致站點被刪除，後續需要多工作流並行恢復與驗證。

事件特徵是「影響客戶數有限，但每一個客戶的恢復成本高」，因此恢復策略必須分批與分層。

控制面	這次事故暴露的缺口	回寫方向
Script safety guardrail	腳本輸入與刪除對象校驗不足	高風險刪除操作增加雙重驗證與範圍確認
Multi-tenant restore orchestration	大規模租戶恢復缺少標準化分批流程	建立恢復編排工具與租戶優先序模型
Data restoration consistency	恢復點一致性在早期流程中不穩	增加恢復後一致性審核與回補流程
Incident communication resilience	長事故中的客戶通訊節奏與聯絡資料治理	固定 cadence、改善受影響客戶聯絡資訊可得性