大綱

  • 依賴事故的特殊性:control plane 在外、自家 IR 流程多數工具失效
  • 決策模型:等 / 切換 / 降級 / 主動止血 的判讀
  • vendor status page 的可信度:滯後、語焉不詳、單點訊號
  • 等待 vs 切換 的成本對照:vendor ETA 不可信時的決策
  • 多區 / 多 vendor 的 failover 路徑(跟 6.7 DR 整合)
  • 跟客戶溝通:vendor 事故的對外承擔邊界
  • 6.14 dependency budget 的整合:事故是 budget 耗盡的事件
  • 8.10 stakeholder 的整合:對外溝通不能單純甩鍋給 vendor
  • 反模式:依賴掛了只能等、無 fallback;對客戶說「是 vendor 的問題」就不更新;vendor SLA credit 從未請領

概念定位

Vendor / 第三方依賴事故處理是面對自己無法直接修正的故障時,選擇等待、切換、降級或止血的決策流程,責任是把控制權不足轉成可執行的判斷。

這一頁處理的是外部控制面的失效。當 vendor 的狀態與自家觀測不一致時,最重要的是先決定自己還能做什麼。

核心判讀

判讀 vendor 事故時,先看可替代路徑,再看等待的成本是否可接受。

重點訊號包括:

  • vendor status page 是否可信
  • 自家服務是否有 fallback 或 multi-vendor 策略
  • 等待 vendor ETA 的成本是否高於切換成本
  • 對外說明是否能清楚承擔自己服務的影響

案例對照

  • Datadog:監控平台本身是許多團隊的 vendor 依賴。
  • Heroku:PaaS 型依賴掛掉時,使用者常沒有太多控制面。
  • Microsoft 365:身份與協作依賴故障會跨產品擴散。

下一步路由

  • 06.7 DR:多 vendor / 多區 failover
  • 06.14 dependency budget:事故事件的 budget 影響
  • 08.3 containment:對 vendor 故障的止血手段
  • 08.10 stakeholder:對外通訊的承擔邊界

判讀訊號

  • 依賴掛了、自家 IR 流程進入「等」狀態無 alternative
  • vendor status page 跟自家 observed 訊號不一致
  • 客戶投訴「為什麼你們的服務也掛」、無對外說明 playbook
  • 同 vendor 反覆出事、無多 vendor 策略
  • vendor 事故事後無 SLA credit 請領記錄

交接路由

  • 06.7 DR:多 vendor / 多區 failover
  • 06.14 dependency budget:事故事件的 budget 影響
  • 08.3 containment:對 vendor 故障的止血手段
  • 08.10 stakeholder:對外通訊的承擔邊界