Kv-Cache on Tarragon

Grouped-Query Attention

Thu, 14 May 2026 00:00:00 +0000

Grouped-query attention（GQA）的核心概念是「多個 query head 共用較少的 key/value head」。它介於 Multi-Head Attention 與 Multi-Query Attention 之間，用較小的品質代價換取更小的 KV cache 與更好的長 context serving 效率。

概念位置

GQA 是 multi-head attention 的推論友善變體。MHA 是每個 query head 都有自己的 K/V；MQA 是所有 query head 共用一組 K/V；GQA 則把 query head 分組，每組共用 K/V。

可觀察訊號與例子

在 model config 裡看到 num_attention_heads: 32、num_key_value_heads: 8，代表 32 個 Q head 共用 8 組 K/V head，group size 是 4。這會讓 KV cache 約縮到 MHA 的四分之一，長 context 與高併發更友善。

設計責任

選模型或估算 serving 成本時，要看 num_key_value_heads，而不是只看總參數。GQA 對本地推論特別重要，因為 context window 與併發數常被 KV cache 卡住。

Prefix Cache

Tue, 12 May 2026 00:00:00 +0000

Prefix Cache 的核心概念是「當多個請求共用相同的前綴 prompt（如同一 system prompt、同一 few-shot 範例）、把該前綴的 KV cache 算一次、後續請求共用、省下重複 prefill 算力」。是 production LLM 服務的常見優化、能大幅降低 latency 跟成本；但在多租戶場景下、跨租戶共用 prefix cache 是直接的隱私洩漏面。

概念位置

Prefix Cache 在推論流程中的角色：

1傳統推論：
2 Request A：system prompt + user A → 完整 prefill → 生成
3 Request B：system prompt + user B → 完整 prefill → 生成
4 ↑ 重複算 system prompt
5
6開啟 Prefix Cache：
7 Request A：system prompt + user A → prefill 整段、cache 共用 prefix
8 Request B：system prompt + user B → 重用 cache 的 system prefix + 只 prefill user B → 生成
9 ↑ 省下 system prompt 的 prefill 算力

效益對應的場景：

場景	效益
同 system prompt、不同 user message	prefill 算力大幅省
同 few-shot 例子、不同 query	prefill 算力大幅省
長 RAG context 共用、不同問題	prefill 算力大幅省
完全獨立的請求（無共用前綴）	無效益

主流推論引擎的支援度（依版本變化）：vLLM、SGLang、llama.cpp 等都有 prefix cache 機制、命名各異。

事實查核註：prefix cache 的命名、設定方式、tenant 隔離預設行為依推論引擎跟版本差異大、引用前以對應引擎的官方文件為準（如 vLLM Automatic Prefix Caching、SGLang RadixAttention 等）。

設計責任

理解 prefix cache 後可以解釋兩個現象：為什麼 production LLM 服務的 latency 在啟用 prefix cache 後大幅下降（system prompt 不再每次重算）、為什麼 prefix cache 在多租戶場景是隱私風險（A 租戶的 prefix 可能被 B 看到、見 llm-multi-tenant-isolation）。

production 設計時、prefix cache 應該按 tenant 分桶、同 tenant 內可共用、跨 tenant 必須隔離。隔離邊界對齊 tenant-boundary 卡片的設計。

5.2 KV cache 量化策略

Tue, 12 May 2026 00:00:00 +0000

KV cache 量化是 PC 場景開大 context 或提高併發數的常用工程選項：把 KV cache 從 fp16 壓到 Q8 或 Q4、體積大幅縮減、騰出的 VRAM 拿去開長 context、加併發、或載入更大模型。本章不重複卡片定義、改處理「實際要不要量化、量化到哪一級」的判讀。卡片視角的量化跟本章的 KV cache 量化是兩個方向：前者壓模型權重、後者壓推論時的 attention 暫存。

讀完本章後、你應該能對自己的工作流回答：KV cache 量化的好處能換到什麼、品質代價落在什麼範圍、K 跟 V 為什麼建議不同等級、跟 context 長度跟併發數怎麼搭配。

本章目標

理解 KV cache 為什麼會隨 context 線性膨脹、為什麼 PC 場景常需要量化。
區分 K 跟 V 在 attention 計算中的角色、解釋為何兩者對量化的容忍度不同。
判讀「該不該量化 KV cache」的工作流類型。
認識 llama.cpp 的 --cache-type-k / --cache-type-v 旗標與相關限制（如 flash attention 要求）。
知道調參時的觀察訊號跟取捨方向。

KV cache 為什麼會膨脹

LLM 推論時、每處理一個 token 都會把該 token 的 key 跟 value 向量算出來、暫存進 KV cache、供後續 token 的 attention 計算複用（不重算）。KV cache 的體積跟下面幾個變數線性相關：

1KV cache 體積 ≈ 2 × n_layers × n_heads × head_dim × bytes_per_value × context_長度 × batch

2：分別是 K cache 跟 V cache
n_layers / n_heads / head_dim：模型結構參數
bytes_per_value：fp16 是 2 bytes、Q8_0 約 1 byte、Q4_0 約 0.5 byte
context_長度：context 開多大、KV cache 就放多大
batch：併發處理多少 sequence

實際 KV cache 體積依模型 attention 變體（MHA / GQA / MLA）、head 數設計、量化方式而變。比起背公式、更實用的做法是看 llama.cpp 啟動時的 log、它會列出實際 KV cache 配置的記憶體：

1llm_load_print_meta: n_layer    = 48
2llm_load_print_meta: n_head     = 32
3llama_kv_cache_init: KV self size = 2048.00 MiB, K (q8_0): 1024.00 MiB, V (q8_0): 1024.00 MiB

事實查核註：上面的 log 格式跟欄位名稱依 llama.cpp 版本變動、實際輸出以執行時為準。常見模型的 KV cache 估算工具可參考 llama.cpp 官方文件或社群維護的 calculator。

K 跟 V 為什麼適合用不同量化等級

K 跟 V 在 attention 計算中扮演不同角色、對量化的容忍度也不同。K 參與內積比較（量化容忍度通常較高）、V 是被加權平均的輸出內容（量化誤差會線性累積）、社群常見做法是 K 用較激進的量化、V 保留較高精度。

attention 的計算流程簡化為：

1attention(Q, K, V) = softmax(Q · K^T / √d) · V

K 跟 V 在這個流程中的角色差異：

K（key）：用來跟 Q 算內積、產生 attention score。內積本質是「相對量級的比較」、量化造成的微小誤差容易在 softmax 後被吸收。
V（value）：是被 softmax 加權平均後直接輸出的內容、量化誤差會線性累積進輸出。

社群多數回報指出：

K 用 Q8_0 或 Q4_0 對品質影響相對小：因為 softmax 對輸入量級的敏感度集中在最大值附近、其他位置的小幅誤差會被指數壓縮。
V 用 Q4_0 在長 context 末尾較易出現品質下降：因為 V 是被加權平均的內容、累積誤差會在輸出中可見。

事實查核註：K 跟 V 對量化敏感度不同的論述、來自社群常見回報跟若干針對 KV cache 量化的論文（如 KIVI、KVQuant 等）。具體影響因模型架構、量化方法（symmetric / asymmetric、per-head / per-channel scale 等）變化、不同模型的表現可能不一致；建議用自己工作流的任務跟自己選定的量化版本實測校準。

KV cache 量化等級對照

llama.cpp 支援的常見 KV cache 量化等級：

量化等級	bytes/value（約）	相對 fp16 體積	社群常見用途
`fp16`	2	100%	預設、品質基準
`q8_0`	1	50%	K 的常見起點、品質衰減社群回報為小幅
`q5_1`	~0.7	~35%	中間選項
`q5_0`	~0.7	~35%	中間選項
`q4_1`	~0.5	~25%	V 的常見極限
`q4_0`	~0.5	~25%	V 的常見起點、品質衰減較 Q5 略大

常見組合（社群回報、需自行校準）：

保守（品質優先）：K=fp16、V=fp16。完全不量化、VRAM 用量最大。
平衡起點：K=Q8_0、V=Q8_0。體積約一半、品質衰減社群多數回報為小幅或不明顯。
激進（context 優先）：K=Q8_0、V=Q4_0。體積約 fp16 的 35%、社群回報短 prompt 影響小、長 prompt 末尾可能出現品質下降。
極限：K=Q4_0、V=Q4_0。體積約 fp16 的 25%、用於開超大 context 或極高併發、品質風險最高。

何時值得量化、何時不該量化

KV cache 量化的主要用途是「VRAM 不足以同時放下模型權重 + 目標 context 長度 + 目標併發數」的場景。當 VRAM 已有充裕餘量、量化省下的 VRAM 沒有對應的用途時、保留 fp16 通常較合適。下表整理常見的判讀情境：

場景	是否值得量化	主要考量
寫 code、補完、跨檔案重構	值得（K=Q8/V=Q4）	程式碼合法性約束會過濾小幅誤差、社群回報品質影響小
RAG（大型 codebase 索引、長文件摘要）	值得	context 通常很長、KV cache 是 VRAM 主要瓶頸
自由創作（小說、長對話、詩）	評估、可能不適合	V 量化的累積誤差較易在創作品質上感知
數學 / 邏輯推理（chain-of-thought）	從保守起點	推理鏈累積誤差較敏感、建議從 K=Q8 / V=Q8 起步、再依任務評估
短 prompt 短回答（< 4K context）	不必要	KV cache 體積本來就小、量化省下的 VRAM 不多
對品質高度敏感的研究或產品任務	從保守起點	先用 fp16 建立品質基準、再依需求逐步量化、確認品質可接受

判讀原則：先確認瓶頸是「VRAM 不夠」還是「品質不夠」。前者量化是解法、後者量化通常會惡化問題。

跟 context 長度、併發數的協調

KV cache 量化的好處要跟其他 VRAM 用量一起評估。常見的取捨方向：

量化 → 開更大 context：把省下的 VRAM 用在加大 -c、能開長 prompt（如 RAG、長對話、跨檔案分析）。
量化 → 加併發：把省下的 VRAM 用在加 --parallel、能同時服務多個 client（如多個編輯器視窗、多 agent）。
量化 → 載入更大模型：把省下的 VRAM 用在降 --n-cpu-moe、減少卸載、提升生字速度。

三者通常不能同時極大化、需要依工作流挑主軸。

實務上的常見搭配（社群回報、需校準）：

工作流	建議搭配
單人寫 code、補完為主	K=Q8 / V=Q4、context 32K ~ 128K、`--parallel 1 ~ 2`
RAG 大型 codebase	K=Q8 / V=Q4、context 128K ~ 256K、`--parallel 1`
多 agent / 多視窗並用	K=Q8 / V=Q4 或更激進、context 32K、`--parallel 4 ~ 8`
對話品質敏感、純創作	K=Q8 / V=Q8 起步、context 適中、依品質確認再決定是否加量化

llama.cpp 的相關旗標

跑 KV cache 量化時、常用的旗標：

旗標	作用	備註
`--cache-type-k`	K cache 量化（如 `f16`、`q8_0`、`q4_0`）	預設 f16
`--cache-type-v`	V cache 量化	預設 f16
`-fa` / `--flash-attn`	啟用 flash attention	部分量化組合需要 flash attention 才能啟用、見下方說明
`-c`	context window 大小	KV cache 體積跟此線性相關
`--parallel`	併發處理數	KV cache 體積跟此線性相關
`-ctk` / `-ctv`	`--cache-type-k` / `--cache-type-v` 的短旗標	同義、版本依 llama.cpp 變動

flash attention 的關係

部分 KV cache 量化組合（特別是 V=Q4_0 / Q4_1）在 llama.cpp 上需要同時啟用 flash attention（-fa）才能正常運作；沒啟用時可能載入失敗或 fallback 到 fp16。具體要求依 llama.cpp 版本變化、以實際 llama-server --help 跟 llama.cpp 官方 issue / PR 為準。

事實查核註：flash attention 對 KV cache 量化組合的限制、是 llama.cpp 實作層面的演進議題、不是模型本身的限制。新版 llama.cpp 可能放寬或改變要求、引用前以最新版的 release notes 為準。

給讀者的調參步驟

實際設定 KV cache 量化時、可以照下面的步驟調：

先用 fp16 基準跑一次：用實際工作流的代表性任務、記錄補完品質、執行時間、VRAM 用量。這是後續比較的基準。
切到 K=Q8 / V=Q8：跑同樣的任務、比較品質。社群多數回報差異不明顯、但需以自己工作流確認。
進一步切到 V=Q4：再跑同樣任務、特別注意長 prompt 末尾、推理鏈、複雜邏輯任務的輸出品質。
若品質可接受、評估省下的 VRAM 怎麼用：加大 -c、提高 --parallel、或減少 --n-cpu-moe。
建立可重複的校準腳本：把代表性任務寫成 prompt 集、做為日後升級模型或調參時的回歸測試。

下一章：5.3 llama.cpp 在 PC 上、把本章跟 5.1 MoE 卸載的旗標放進完整的 llama.cpp 調參工作流。

LLM 多租戶推論隔離

Tue, 12 May 2026 00:00:00 +0000

本章的責任是把 LLM 推論服務的多租戶隔離問題拆成可操作的判讀節點。LLM 服務的隔離議題在一般 multi-tenant 隔離（compute / network / data、見 tenant-boundary）之上、多了 KV cache（特別是 prefix cache 重用）、prompt log、model artifact 訪問權三個 LLM-specific 層、本章聚焦這些差異。一般 multi-tenant 隔離原則沿用 7.2 身分授權邊界跟 7.4 供應鏈。

本章寫作邊界

本章聚焦 production LLM 推論的多租戶 isolation 特殊性。team / 個人 dev 場景的「多人共用本地 server」見 llm/6.5 跨進 production 的 routing 中樞；通用 IAM / 服務間信任邊界見 7.2。

本章 threat scope

In-scope：KV cache 跨租戶洩漏、prompt log 隔離、模型 artifact 訪問權、batch 推論的順序敏感性、tenant-scoped rate limit、共用 GPU 上的記憶體殘留。

Out-of-scope（路由到他章）：

通用 IAM / 服務間信任 → 7.2 identity-access-boundary
workload identity → 7.7 workload-identity-and-federated-trust
log / PII 治理 → llm-log-and-pii-governance
model artifact 供應鏈 → llm-deployment-supply-chain
入口治理 → 7.3 entrypoint-and-server-protection

從本章到實作

Mechanism：問題節點表 → knowledge-card → 看具體機制。
Delivery：交接路由 → 05-deployment-platform / 06-reliability / 08-incident-response。

LLM 多租戶隔離的三個 LLM-specific 層

跟一般 service 的多租戶隔離（compute / network / data）相比、LLM 推論服務多了三個層次：

KV cache 層：KV cache 是推論時的 attention 暫存、跨 request 可能重用（prefix cache、shared prefix optimization）；跨租戶共用 cache 是直接的資料洩漏面。
prompt log 層：production LLM 服務通常會 log prompt + response 用於 debug / billing / abuse detection；log 的隔離與保留期限直接影響跨租戶洩漏風險。
model artifact 訪問權：production 可能部署多個 fine-tuned 模型（如 customer-specific 模型）、模型本身是 sensitive artifact、訪問權要對齊 IAM。

分析模型

production LLM 推論的多租戶隔離依四個層次分析：

memory 層：GPU VRAM、CPU RAM 中的 KV cache 跟模型權重、跨 request / 跨租戶的殘留與共享邊界。
storage 層：模型 artifact、prompt log、context cache 在儲存層的隔離。
identity 層：tenant identity 怎麼帶到 inference call、rate limit / quota 怎麼按租戶分。
observability 層：metric / log / trace 中的 tenant tag、跨租戶分析的允許範圍。

判讀流程

判讀流程的責任是把「能服務多個租戶的 LLM 服務」轉成「租戶間資料不互相洩漏的 LLM 服務」。

先確認 tenant identity 從 API gateway 到 inference call 的傳遞路徑。
再確認 KV cache、prompt log、model artifact 各自的隔離邊界。
接著確認 GPU 記憶體中的跨 request 殘留是否清理。
最後交接到偵測流程、確認跨租戶異常能被識別。

問題節點（案例觸發式）

問題節點	判讀訊號	風險後果	前置控制面
KV cache 跨租戶共享	shared prefix optimization 沒按 tenant key 分桶	租戶 A 的 prompt prefix 被租戶 B 看見	data-protection
prompt log 沒分租戶	集中 log、查詢時 tenant filter 缺失	abuse detection 跨租戶看 prompt 內容、隱私違規	audit-log
共用 GPU 上的記憶體殘留	推論完未清 VRAM、下一個 request 可能 dump 到前一個內容	同 GPU 上的不同 tenant 之間殘留洩漏	secret-management
tenant-scoped rate limit 失效	同一 API key 限流、租戶被互相 DoS	大租戶吃光 quota、其他租戶無法用	rate-limit
model artifact 訪問權混亂	fine-tuned 模型路徑可被其他 tenant 載入	客戶模型被其他客戶使用、模型權重洩漏	identity-access-boundary
batch 推論的 cross-tenant 順序敏感	dynamic batching 把不同 tenant 的 request 合批	一個 tenant 的 OOM / 長 prompt 影響其他 tenant 的 latency	contract

常見風險邊界

風險邊界的責任是界定何時 LLM 多租戶 isolation 已進入高壓狀態。

KV cache 共用範圍跨越 tenant 邊界時、代表記憶體層 isolation 失效。
prompt log 沒帶 tenant tag、或 tag 後仍可跨 tenant 查時、代表 log 層 isolation 不足。
模型 artifact 訪問權跟 IAM 解耦時、代表 identity 層 isolation 不足。
推論 batch 對 tenant boundary 不敏感時、代表 batch 層的 noisy-neighbor 風險上升。

LLM 場景的特殊判讀

LLM 多租戶 isolation 相對一般 multi-tenant 服務的特殊性：

KV cache 是有用但敏感的優化：shared prefix cache（如多 tenant 用同一 system prompt）能省大量 prefill 算力、但跨 tenant 共用就是洩漏。判讀：可以 share 同 tenant 內的 prefix、不能 share 跨 tenant。
prompt log 含豐富使用者意圖：相比一般 API log 主要記 endpoint / status code、LLM prompt log 記的是「使用者實際在問什麼」、隱私敏感度高得多。
GPU 是稀缺資源、共用比 CPU 多：production LLM 服務常多 tenant 共用同卡、isolation 比一般 multi-tenant 服務（每 tenant 跑獨立 pod）更難做、需要更細的 batch 跟 memory 管理。
fine-tuned 模型本身是 customer asset：模型訓練成本高、權重是客戶 IP、訪問權混亂直接是 IP 外洩。
「LLM 記住 cross-tenant 資訊」的疑慮：使用者常擔心 LLM 把 A tenant 的 prompt「記住」洩漏給 B tenant；對 inference-only 服務（無 fine-tune）這不發生（模型權重 immutable）、有 fine-tune 時要看 training data 隔離。

案例觸發參考

LLM 多租戶 isolation 的公開案例累積中、本章先沿用通用 multi-tenant 案例：

一般 multi-tenant 隔離案例見 7.2 身分授權邊界。
LLM-specific 案例累積後會補入 red-team/cases/llm-multi-tenant/。

事實查核註：LLM 多租戶 isolation 的公開事件案例還在早期、社群上有些「LLM A 的 system prompt 被 B 看到」等報告、多數屬 prompt injection 範疇而非 cache 洩漏。建議引用前以最新的 OWASP LLM Top 10 跟具體 vendor 的 incident 公告為準。

引用標準

標準	版本 / 年份	適用場景
NIST SP 800-207（Zero Trust Architecture）	2020	tenant boundary 零信任模型 reference
OWASP LLM Top 10	2025	LLM application security 通用 reference
CSA Cloud Controls Matrix	v4 (2021)	multi-tenant cloud 控制 reference

引用版本與 cadence 規則見 security-citation-currency-and-precision。Last reviewed: 2026-05-12。

下一步路由

身份授權邊界：7.2 identity-access-boundary
log 治理：llm-log-and-pii-governance
agent prompt injection 後果：llm-prompt-injection-in-agent
部署平台：05-deployment-platform
可靠性：06-reliability