"Kv-Cache"
- Grouped-Query Attention 讓多個 query head 共用較少的 key/value head,以降低 KV cache 體積與推論記憶體壓力
- Prefix Cache 把多個請求共用的前綴 prompt 的 KV cache 重用、省下重複 prefill 算力的優化、production 多用戶服務的常見設計
- 5.2 KV cache 量化策略 PC 場景用 K=Q8 / V=Q4 等量化把 KV cache 壓縮、騰出 VRAM 開大 context window 或加併發數的判讀
- LLM 多租戶推論隔離 production LLM 服務的多租戶隔離:KV cache 不共享、log / model artifact 隔離、跨用戶 prompt 洩漏面