Meta 案例的核心責任是處理跨區故障時的邊界與回復順序。大規模平台的關鍵風險在跨區相依引發的連鎖退化,單點失效反而是較好處理的情況。

問題場景

當核心網路或控制面異常跨越區域邊界,若沒有預先定義故障域與回復順序,恢復動作本身會變成新的放大器。

決策機制

機制核心問題交付結果
Region fault domain影響面最多到哪裡故障邊界
Ordered failover先恢復哪條路徑回復順序
Dependency isolation共享相依如何降風險局部化策略

可觀測訊號

訊號判讀重點對應章節
cross-region error spread擴散是否越界8.14
failover completion lag回復批次是否收斂8.3
shared dependency saturation共享依賴是否成瓶頸6.14

下一步路由

先定義 6.20 的演練範圍,再回寫 8.19 的決策欄位。