LLM 多租戶推論隔離
本章的責任是把 LLM 推論服務的多租戶隔離問題拆成可操作的判讀節點。LLM 服務的隔離議題在一般 multi-tenant 隔離(compute / network / data、見 tenant-boundary)之上、多了 KV cache(特別是 prefix cache 重用)、prompt log、model artifact 訪問權三個 LLM-specific 層、本章聚焦這些差異。一般 multi-tenant 隔離原則沿用 7.2 身分授權邊界 跟 7.4 供應鏈。
本章寫作邊界
本章聚焦 production LLM 推論的多租戶 isolation 特殊性。team / 個人 dev 場景的「多人共用本地 server」見 llm/6.5 跨進 production 的 routing 中樞;通用 IAM / 服務間信任邊界見 7.2。
本章 threat scope
In-scope:KV cache 跨租戶洩漏、prompt log 隔離、模型 artifact 訪問權、batch 推論的順序敏感性、tenant-scoped rate limit、共用 GPU 上的記憶體殘留。
Out-of-scope(路由到他章):
- 通用 IAM / 服務間信任 → 7.2 identity-access-boundary
- workload identity → 7.7 workload-identity-and-federated-trust
- log / PII 治理 → llm-log-and-pii-governance
- model artifact 供應鏈 → llm-deployment-supply-chain
- 入口治理 → 7.3 entrypoint-and-server-protection
從本章到實作
- Mechanism:問題節點表 → knowledge-card → 看具體機制。
- Delivery:交接路由 →
05-deployment-platform / 06-reliability / 08-incident-response。
LLM 多租戶隔離的三個 LLM-specific 層
跟一般 service 的多租戶隔離(compute / network / data)相比、LLM 推論服務多了三個層次:
- KV cache 層:KV cache 是推論時的 attention 暫存、跨 request 可能重用(prefix cache、shared prefix optimization);跨租戶共用 cache 是直接的資料洩漏面。
- prompt log 層:production LLM 服務通常會 log prompt + response 用於 debug / billing / abuse detection;log 的隔離與保留期限直接影響跨租戶洩漏風險。
- model artifact 訪問權:production 可能部署多個 fine-tuned 模型(如 customer-specific 模型)、模型本身是 sensitive artifact、訪問權要對齊 IAM。
分析模型
production LLM 推論的多租戶隔離依四個層次分析:
- memory 層:GPU VRAM、CPU RAM 中的 KV cache 跟模型權重、跨 request / 跨租戶的殘留與共享邊界。
- storage 層:模型 artifact、prompt log、context cache 在儲存層的隔離。
- identity 層:tenant identity 怎麼帶到 inference call、rate limit / quota 怎麼按租戶分。
- observability 層:metric / log / trace 中的 tenant tag、跨租戶分析的允許範圍。
判讀流程
判讀流程的責任是把「能服務多個租戶的 LLM 服務」轉成「租戶間資料不互相洩漏的 LLM 服務」。
- 先確認 tenant identity 從 API gateway 到 inference call 的傳遞路徑。
- 再確認 KV cache、prompt log、model artifact 各自的隔離邊界。
- 接著確認 GPU 記憶體中的跨 request 殘留是否清理。
- 最後交接到偵測流程、確認跨租戶異常能被識別。
問題節點(案例觸發式)
| 問題節點 | 判讀訊號 | 風險後果 | 前置控制面 |
|---|---|---|---|
| KV cache 跨租戶共享 | shared prefix optimization 沒按 tenant key 分桶 | 租戶 A 的 prompt prefix 被租戶 B 看見 | data-protection |
| prompt log 沒分租戶 | 集中 log、查詢時 tenant filter 缺失 | abuse detection 跨租戶看 prompt 內容、隱私違規 | audit-log |
| 共用 GPU 上的記憶體殘留 | 推論完未清 VRAM、下一個 request 可能 dump 到前一個內容 | 同 GPU 上的不同 tenant 之間殘留洩漏 | secret-management |
| tenant-scoped rate limit 失效 | 同一 API key 限流、租戶被互相 DoS | 大租戶吃光 quota、其他租戶無法用 | rate-limit |
| model artifact 訪問權混亂 | fine-tuned 模型路徑可被其他 tenant 載入 | 客戶模型被其他客戶使用、模型權重洩漏 | identity-access-boundary |
| batch 推論的 cross-tenant 順序敏感 | dynamic batching 把不同 tenant 的 request 合批 | 一個 tenant 的 OOM / 長 prompt 影響其他 tenant 的 latency | contract |
常見風險邊界
風險邊界的責任是界定何時 LLM 多租戶 isolation 已進入高壓狀態。
- KV cache 共用範圍跨越 tenant 邊界時、代表記憶體層 isolation 失效。
- prompt log 沒帶 tenant tag、或 tag 後仍可跨 tenant 查時、代表 log 層 isolation 不足。
- 模型 artifact 訪問權跟 IAM 解耦時、代表 identity 層 isolation 不足。
- 推論 batch 對 tenant boundary 不敏感時、代表 batch 層的 noisy-neighbor 風險上升。
LLM 場景的特殊判讀
LLM 多租戶 isolation 相對一般 multi-tenant 服務的特殊性:
- KV cache 是有用但敏感的優化:shared prefix cache(如多 tenant 用同一 system prompt)能省大量 prefill 算力、但跨 tenant 共用就是洩漏。判讀:可以 share 同 tenant 內的 prefix、不能 share 跨 tenant。
- prompt log 含豐富使用者意圖:相比一般 API log 主要記 endpoint / status code、LLM prompt log 記的是「使用者實際在問什麼」、隱私敏感度高得多。
- GPU 是稀缺資源、共用比 CPU 多:production LLM 服務常多 tenant 共用同卡、isolation 比一般 multi-tenant 服務(每 tenant 跑獨立 pod)更難做、需要更細的 batch 跟 memory 管理。
- fine-tuned 模型本身是 customer asset:模型訓練成本高、權重是客戶 IP、訪問權混亂直接是 IP 外洩。
- 「LLM 記住 cross-tenant 資訊」的疑慮:使用者常擔心 LLM 把 A tenant 的 prompt「記住」洩漏給 B tenant;對 inference-only 服務(無 fine-tune)這不發生(模型權重 immutable)、有 fine-tune 時要看 training data 隔離。
案例觸發參考
LLM 多租戶 isolation 的公開案例累積中、本章先沿用通用 multi-tenant 案例:
- 一般 multi-tenant 隔離案例見 7.2 身分授權邊界。
- LLM-specific 案例累積後會補入
red-team/cases/llm-multi-tenant/。
事實查核註:LLM 多租戶 isolation 的公開事件案例還在早期、社群上有些「LLM A 的 system prompt 被 B 看到」等報告、多數屬 prompt injection 範疇而非 cache 洩漏。建議引用前以最新的 OWASP LLM Top 10 跟具體 vendor 的 incident 公告為準。
引用標準
| 標準 | 版本 / 年份 | 適用場景 |
|---|---|---|
| NIST SP 800-207(Zero Trust Architecture) | 2020 | tenant boundary 零信任模型 reference |
| OWASP LLM Top 10 | 2025 | LLM application security 通用 reference |
| CSA Cloud Controls Matrix | v4 (2021) | multi-tenant cloud 控制 reference |
引用版本與 cadence 規則見 security-citation-currency-and-precision。Last reviewed: 2026-05-12。
下一步路由
- 身份授權邊界:7.2 identity-access-boundary
- log 治理:llm-log-and-pii-governance
- agent prompt injection 後果:llm-prompt-injection-in-agent
- 部署平台:
05-deployment-platform - 可靠性:
06-reliability