2019 年 GCP 網路壅塞事故的核心教訓是:當共享網路容量被打滿,影響會跨越產品邊界,同一時間出現在 compute、storage、observability 與管理面。

事故摘要

Google Cloud 在 2019-06-02 發生美國多區域 network congestion,官方摘要指出多個 US region 出現 elevated packet loss,影響持續約 3 至 4 小時以上,並牽動多個 GCP 與非 Cloud 服務。

這類事故本質是共享網路資源退化造成的跨產品連鎖事件,單一服務壞掉反而好處理。

判讀訊號

訊號事故中代表什麼第一波決策價值
多區域 packet loss 同時上升共享網路層失衡,不是單服務 bug優先走區域隔離與流量調整路徑
多產品錯誤率一起上升事故已跨產品依賴鏈擴散事故分級以跨產品影響為主,而非單團隊視角
部分 region 正常、部分 region 退化區域差異可用來做流量重新分配啟動 region-aware mitigation
status page 更新中提到 varied impact影響面非均勻分布對外更新要分 region / service 粒度

事故路徑

  1. 美國多區域網路容量在高壓下出現壅塞與丟包。
  2. 多個 GCP 產品受同一網路瓶頸影響,出現延遲與錯誤。
  3. 工程團隊進行流量與容量調整,逐區域回復。
  4. 狀態頁持續更新受影響範圍與恢復進度。
  5. 事後回寫區域隔離、容量保留與跨產品協調流程。

可回寫控制面

控制面這次事故暴露的缺口回寫方向
Region-aware traffic control區域壅塞時流量轉移策略不夠快建立區域流量切換的預設策略與演練
Cross-product incident command多產品同時受影響時協調成本高強化跨產品指揮節奏與共享 decision log
Network dependency mapping服務依賴共享網路層但判讀入口分散補跨產品依賴圖與共同告警面板
Status communication granularity對外說明若只寫全域狀態會失真更新按 region 與 service 分層揭露

下一步路由

引用源