Retry Storm

2026-04-23

Retry storm 的核心概念是「大量 client 或 worker 在故障期間同時重試，導致下游壓力急速放大」。重試本來用來提高成功率，但在高流量下可能把暫時性故障變成持續過載。可先對照 Rollback Rehearsal。

概念位置

Retry storm 是 retry policy、timeout、backoff、jitter 與 rate limit 的共同風險。每一層服務若都自動重試，單一使用者 request 可能變成多倍下游呼叫。可先對照 Rollback Rehearsal。

系統需要防止 retry storm 的訊號是下游錯誤率上升後，request 數、連線數與 CPU 同步上升。付款 API 短暫變慢時，所有 checkout instance 同時重試，可能讓付款 API 更難恢復。

Retry storm 防護要包含重試預算、backoff、jitter、rate limit、circuit breaker 與告警。Runbook 應能看出原始流量與重試流量的比例。