Kv-Cache

2026-05-14 Grouped-Query Attention 讓多個 query head 共用較少的 key/value head，以降低 KV cache 體積與推論記憶體壓力
2026-05-12 Prefix Cache 把多個請求共用的前綴 prompt 的 KV cache 重用、省下重複 prefill 算力的優化、production 多用戶服務的常見設計
2026-05-12 5.2 KV cache 量化策略 PC 場景用 K=Q8 / V=Q4 等量化把 KV cache 壓縮、騰出 VRAM 開大 context window 或加併發數的判讀
2026-05-12 LLM 多租戶推論隔離 production LLM 服務的多租戶隔離：KV cache 不共享、log / model artifact 隔離、跨用戶 prompt 洩漏面