LinkedIn 案例的核心責任是讓容量治理與 on-call 分工一起運作。高流量服務的穩定性不只靠擴容,還靠清楚的接手邏輯。

問題場景

當流量逼近上限時,技術瓶頸與協作瓶頸會同時出現。若只有容量模型,沒有分層值班,恢復節奏仍會失控。

決策機制

機制核心問題交付結果
Headroom 預算何時進入風險區擴容與限流門檻
Primary/Secondary/SME何時由誰接手升級路徑
自動化壓測模型是否貼近現況驗證循環

可觀測訊號

訊號判讀重點對應章節
replication latency是否接近容量邊界6.9
on-call handoff latency分層交接是否順暢8.12
load-test drift模型與真實壓力是否偏移6.2

下一步路由

把容量假設寫進 6.22,再把交接規則對齊 8.2