GCP 2019 US Network Congestion Multi-service Incident

2026-05-07

2019 年 GCP 網路壅塞事故的核心教訓是：當共享網路容量被打滿，影響會跨越產品邊界，同一時間出現在 compute、storage、observability 與管理面。

事故摘要

Google Cloud 在 2019-06-02 發生美國多區域 network congestion，官方摘要指出多個 US region 出現 elevated packet loss，影響持續約 3 至 4 小時以上，並牽動多個 GCP 與非 Cloud 服務。

這類事故本質是共享網路資源退化造成的跨產品連鎖事件，單一服務壞掉反而好處理。

訊號	事故中代表什麼	第一波決策價值
多區域 packet loss 同時上升	共享網路層失衡，不是單服務 bug	優先走區域隔離與流量調整路徑
多產品錯誤率一起上升	事故已跨產品依賴鏈擴散	事故分級以跨產品影響為主，而非單團隊視角
部分 region 正常、部分 region 退化	區域差異可用來做流量重新分配	啟動 region-aware mitigation
status page 更新中提到 varied impact	影響面非均勻分布	對外更新要分 region / service 粒度

控制面	這次事故暴露的缺口	回寫方向
Region-aware traffic control	區域壅塞時流量轉移策略不夠快	建立區域流量切換的預設策略與演練
Cross-product incident command	多產品同時受影響時協調成本高	強化跨產品指揮節奏與共享 decision log
Network dependency mapping	服務依賴共享網路層但判讀入口分散	補跨產品依賴圖與共同告警面板
Status communication granularity	對外說明若只寫全域狀態會失真	更新按 region 與 service 分層揭露