Amd on Tarragon

模組五：Windows / Linux + 獨立 GPU

Tue, 12 May 2026 00:00:00 +0000

本模組的核心目標是把模組零的心智模型落地到「Windows / Linux + 獨立 GPU」這條硬體路線。跟模組一（Apple Silicon Mac）平行、共用模組零的詞彙跟 knowledge-cards、但硬體判讀模型本質不同：Mac 是統一記憶體一塊預算、PC 是 VRAM + 系統 RAM 兩塊分層預算、要分開判讀。

讀完本模組後、你應該能對自己這台 PC 直接回答：能跑哪些模型、要不要卸載 MoE 專家層到 RAM、KV cache 該量化到哪一級、context 能開多大、併發數能拉到多少。

為什麼 PC 路線值得獨立模組

Mac 統一記憶體的判讀模型把「能載入多大模型」這個問題收斂到一塊預算。PC 場景被獨立 VRAM 拆成兩個記憶體區域、判讀軸增加：

VRAM：高頻寬區。常見消費級 NVIDIA 卡的廠商標稱頻寬大致落在數百 GB/s 到 1 TB/s 級的區間（例如 RTX 5060 Ti 16GB 標稱約 448 GB/s、RTX 5070 Ti 標稱約 896 GB/s、以廠商規格表為準）、生字速度上限主要受 VRAM 頻寬影響。
系統 RAM：高容量區。DDR5 6000 雙通道的標稱頻寬約 96 GB/s（依主機板與時序變化）、相對 VRAM 慢約一個量級、但 64GB / 128GB 在 PC 平台的擴充成本相對低、適合放容量需求大但存取頻率較低的權重。
PCIe：兩個區域之間的連線。PCIe 5.0 x16 廠商標稱單向約 64 GB/s（PCIe 4.0 x16 約一半）；實際傳輸吞吐受驅動、檔案系統與工作流影響。

這三層差異產生兩個 Mac 場景上較少出現的工程選項：

MoE 模型 + 專家層 CPU 卸載：MoE 模型每個 token 只啟用少數專家、把不活躍的專家權重放在系統 RAM、用到再走 PCIe 拉回 GPU。讓 16GB VRAM 卡能載入 30B / 70B 等級的 MoE 模型。
KV cache 量化開大 context：把 K cache 量化到 Q8、V cache 量化到 Q4、KV cache 體積大幅壓縮、騰出的 VRAM 可用於開大 context window 或提高併發數。

這兩個選項在 Mac 統一記憶體場景下較少使用（VRAM 跟 RAM 共用、不需在兩個區域之間搬資料）、在 PC 場景則是常用的調參工具。

章節列表

章節	主題	關鍵收穫
5.0	VRAM + RAM 分層預算	16GB VRAM × 64GB RAM 等情境的模型對照、跟 Mac 統一記憶體的對比
5.1	MoE 模型與 CPU 卸載策略	何時把專家層卸到 RAM、卸幾層、prefill / generation 影響各自不同
5.2	KV cache 量化策略	K=Q8 / V=Q4 跟 context window / 併發數的權衡、flash attention 的關係
5.3	llama.cpp 在 PC 上	CUDA / ROCm build、核心旗標地圖、`llama-bench` 校準工作流
5.4	LM Studio 在 Windows	Windows 安裝、CUDA backend 選擇、GUI 欄位對應到 llama.cpp 旗標
5.5	PC 場景的模型選型優先順序	全載 14B Dense vs 卸載 30B MoE 等的選型決策
5.6	GPU 廠商差異	NVIDIA / AMD / Intel 的工具鏈支援度、選卡判讀框架

跟模組一的對應關係

模組一（Mac）	模組五（PC）	關係
0.5 Apple Silicon 記憶體預算	5.0 VRAM + RAM 分層預算	平行、不同硬體模型；都在模組零之下
1.0 Ollama	（Ollama Windows 同樣可用、不獨立成章）	跨平台、不重複
1.1 LM Studio	5.4 LM Studio 在 Windows	Windows 多了 CUDA backend 選擇與 driver 議題
1.2 llama.cpp	5.3 llama.cpp 在 PC 上	PC 多了 CUDA build、tensor split、`--n-cpu-moe` 等參數
1.3 VS Code + Continue.dev	（共用、不獨立成章）	介面層跨平台、設定檔幾乎相同
1.4 模型選型優先順序	5.5 PC 場景的模型選型優先順序	選型邏輯類似、但 PC 多了 MoE 卸載這個變數
1.5 期望管理	（共用、不獨立成章）	本地 vs 雲端分工跟硬體無關

最短路徑：16GB VRAM + 64GB RAM 跑 Qwen3 30B MoE

事實查核註：本模組引用的硬體規格、模型體積、社群實測數量級、廠商工具鏈成熟度、皆以 2026 年 5 月的公開資訊與社群常見回報為基準。GPU 規格、driver 版本、llama.cpp release、模型釋出與量化版本快速演進、引用前請以 llama.cpp release notes、各廠商官方規格表、各模型 Hugging Face model card 為準、並用 llama-bench 或實際工作流校準。

如果你有類似 RTX 5060 Ti 16GB / 5070 Ti 16GB + 64GB DDR5 的配置、想用一小時搞定 PC 本地 LLM 寫 code、下面是最短路徑：

 1# 1. 裝 llama.cpp 的 CUDA build（Windows / Linux 各有預編好的 release）
 2# 從 ggml-org/llama.cpp GitHub release 抓 CUDA 12.x 版
 3
 4# 2. 抓一個 MoE 模型（如 Qwen3-30B-A3B 的 GGUF Q4_K_M 版本）
 5# 從 Hugging Face 下載到 ~/models/
 6
 7# 3. 啟動 server、把 30 層 MoE 專家層卸載到 CPU
 8./llama-server \
 9  -m ~/models/Qwen3-30B-A3B-Q4_K_M.gguf \
10  -ngl 99 \
11  --n-cpu-moe 30 \
12  --cache-type-k q8_0 \
13  --cache-type-v q4_0 \
14  -c 32768 \
15  --port 8080
16
17# 4. 在 VS Code 裝 Continue 擴充套件、config 指向 http://localhost:8080

關鍵參數的意義先濃縮成一句、詳細推導留給 5.3 llama.cpp 在 PC 上：

-ngl 99：把所有可放的層丟到 GPU。
--n-cpu-moe 30：把 30 層的 MoE 專家權重留在系統 RAM、不上 VRAM。實際層數視模型結構與 VRAM 餘量微調。
--cache-type-k q8_0 / --cache-type-v q4_0：KV cache 量化、騰出 VRAM 開大 context。
-c 32768：context window。配上 KV cache 量化、單卡 16GB 通常能開到 128K ~ 256K（看模型）。

為什麼這個順序

本模組章節順序的設計脈絡：

先 5.0 VRAM + RAM 分層預算：建立 PC 硬體判讀模型、是後面所有章節的前提。
再 5.1 MoE 卸載：MoE + CPU 卸載是 PC 場景相對 Mac 的核心優勢、先把這個工程選項說清楚。
接 5.2 KV cache 量化：跟 5.1 一起決定 VRAM 怎麼切、是 PC 場景的第二個獨有選項。
再 5.3 llama.cpp 在 PC 上：把前三章的理論落地到實際參數。
再 5.4 LM Studio 在 Windows：給「不想直接面對 CLI」的讀者另一條路、補上 GUI 內對應 5.1 / 5.2 設定的位置。
然後 5.5 模型選型：所有工程選項都建立後、回答「具體裝哪個模型」。
最後 5.6 GPU 廠商差異：選好模型跟參數後、再處理 NVIDIA / AMD / Intel 的工具鏈差異。

不在本模組內的主題

本模組不討論：

多卡 NVLink、tensor parallelism：消費級 PC 場景通常單卡、多卡分散式推論屬於資料中心級教材。
資料中心級 GPU（H100 / H200 / B200）部署：本模組聚焦消費級 PC、不涵蓋 vLLM / TGI / Triton 等資料中心 inference server。
Linux 系統管理 / CUDA 驅動安裝細節：假設讀者已會基本系統管理；具體驅動安裝步驟交給 NVIDIA / AMD 官方文件。
訓練 / fine-tuning：跟「跑現成模型」是不同工程問題、見模組三與其推薦課程。
產圖模型：Diffusion 跟 Transformer 是不同架構、見 ComfyUI / Stable Diffusion 專門教材。

5.6 GPU 廠商差異

Tue, 12 May 2026 00:00:00 +0000

選 GPU 跑本地 LLM 不只看 VRAM 容量與 memory bandwidth、工具鏈支援度同樣重要。NVIDIA / AMD / Intel 三家廠商在 llama.cpp 生態的位置不同、GPU compute backend 中 CUDA 之外的選項仍在演進。本章整理三家在 2026 年 5 月的相對位置、跟選卡時值得考慮的判讀軸；多卡互連的議題見 NVLink 跟 PCIe。本章不重複統一記憶體的 Mac 場景、改聚焦 PC 獨立 VRAM 的廠商工具鏈差異。

事實查核註：GPU 工具鏈的支援度依 driver 版本、llama.cpp release 與廠商策略快速演進、本章描述為 2026 年 5 月的社群常見回報、建議引用前查閱對應 backend 的官方文件、llama.cpp release notes 跟自己硬體的實測。

本章目標

知道 NVIDIA CUDA、AMD ROCm、Intel SYCL、跨平台 Vulkan 各自的成熟度。
認識「工具鏈支援度」相對「硬體規格」對本地 LLM 體驗的重要性。
在選卡時、能用「工具鏈 × 規格 × 預算」三軸做判讀。
認識常見的混合場景（雲端 + 本地）。

NVIDIA CUDA：當前生態預設

NVIDIA GPU + CUDA backend 是 2026 年本地 LLM 社群的事實預設。原因不是「規格最好」、而是「工具鏈最成熟」：

llama.cpp CUDA backend 開發最久、PR 跟 issue 數量最多：新功能（新量化、flash attention 改進、speculative decoding 等）通常先在 CUDA backend 落地。
driver 跟 CUDA toolkit 對齊明確：driver 版本對應 CUDA 版本的表清楚、出問題容易查。
社群實測案例多：Reddit、HuggingFace forum、GitHub issue 上、絕大多數 benchmark 跟調參討論基於 CUDA。
上層工具（Ollama、LM Studio）優先支援：新版本通常先 CUDA、再 Vulkan、再 ROCm。

社群常見回報的 NVIDIA 卡分級（依 VRAM 容量為主、寫 code 場景）：

等級	代表卡型	適用情境
入門	RTX 5060 8GB / RTX 4060 8GB	試水溫、跑 7B 級模型
主流（甜蜜點）	RTX 5060 Ti 16GB / RTX 5070 Ti 16GB	30B MoE 卸載、寫 code 場景社群常見起點
進階	RTX 4090 24GB / RTX 5080 16GB	32B Dense 全載 / 70B MoE 卸載
旗艦	RTX 5090 32GB	70B Dense Q4 全載、長 context、多模型併存
上一代二手	RTX 3090 24GB	二手市場價格可能更友善、CUDA 支援度仍佳

選卡時的常見軸：

VRAM 容量決定模型上限：16GB 起步可跑 30B MoE 卸載、24GB 跑 32B Dense、32GB 跑 70B Dense。
VRAM 頻寬決定生字速度上限：同 VRAM 容量下、頻寬接近兩倍的卡（如 5070 Ti 對 5060 Ti）生字速度通常顯著差。
CUDA compute capability：影響某些優化能否啟用、新世代卡通常有額外指令支援。
driver 長期支援：較新世代卡的 driver 支援週期通常較長、適合長時間用。

AMD ROCm 與 Radeon

AMD GPU 在 llama.cpp 生態的位置：ROCm backend 在演進、Vulkan backend 是跨平台 fallback。

ROCm backend

ROCm（Radeon Open Compute）是 AMD 的 GPU 計算平台、定位類似 CUDA。社群常見回報的當前狀態：

Linux 支援度較 Windows 成熟：ROCm 在 Linux 上發展時間較長、Windows 版本相對年輕。
支援 GPU 清單：ROCm 對「官方支援」的 GPU 清單有明確限制、清單外的卡也許能跑、但走 unsupported 路徑。
llama.cpp ROCm build 跟 CUDA build 的功能差異：多數核心功能跨 backend 一致、新功能 cherry-pick 速度通常稍慢於 CUDA。
效能對比：同價格段、AMD 卡的 VRAM 容量有時較大；但生字速度依模型跟設定變化、社群回報的 NVIDIA / AMD 對比結果不一致、需自己硬體實測。

Vulkan backend

Vulkan 是跨平台 GPU API、llama.cpp 的 Vulkan backend 適合：

AMD GPU on Windows：ROCm Windows 不穩或不支援時的選項。
Intel ARC：見下節。
跨平台 fallback：希望同一份 binary 跑在多種 GPU 上。

社群常見回報：Vulkan backend 的 throughput 通常較同硬體的 CUDA / ROCm backend 低、但通用性高。

選 AMD 卡的判讀

情境	建議
Linux 主力使用者、想避開 NVIDIA driver	AMD + ROCm on Linux 是合理選擇、先確認卡型在 ROCm 支援清單
Windows 主力使用者	NVIDIA + CUDA 仍是社群預設較順的路徑
同價格段、AMD VRAM 容量明顯較大	評估「容量優勢 vs 工具鏈成本」、用自己工作流校準
已有 AMD 卡、想試本地 LLM	直接試 Vulkan / ROCm backend、看是否符合需求

Intel ARC

Intel 的獨立 GPU 系列 ARC（A 系列、後續預期 B 系列）在 llama.cpp 生態仍處於相對年輕的階段：

可用 backend：Vulkan（通用）、SYCL / OpenVINO（Intel 特化）。
VRAM 容量：ARC A770 16GB 的 VRAM 容量在價格段內競爭力較強。
工具鏈成熟度：社群實測案例較 NVIDIA / AMD 少、預期需要較多自己摸索。
driver 演進：Intel ARC driver 在 2026 年仍持續演進、不同版本的 throughput 可能差異較大。

選 Intel ARC 的合理情境：

想試「相對冷門但價格友善」的選項。
已有 Intel 平台、想保持廠商一致。
不介意花時間自己調工具鏈設定。

對「想最快跑起來、最少調參」的使用者、ARC 不是最順的選擇。

工具鏈 × 規格 × 預算的判讀框架

選卡時的三軸框架：

1工具鏈支援度（CUDA > ROCm > Vulkan > SYCL）
2  ×
3硬體規格（VRAM 容量 + VRAM 頻寬 + CUDA core / CU 數量）
4  ×
5預算（含後續電費、機殼散熱、電源升級）

判讀順序：

先確認工具鏈支援度符合自己的折騰意願：怕折騰選 NVIDIA、樂於折騰可考慮 AMD / Intel。
再依預算選 VRAM 容量級別：16GB 起步、24GB 進階、32GB 旗艦。
同容量下選頻寬較高的卡：對生字速度影響直接。
預留升級空間：機殼散熱、電源、PCIe lane 配置會影響後續多卡或換卡的選擇。

雲端 + 本地的混合場景

本地 LLM 不必獨自解決所有任務、雲端 + 本地的混合是社群多數使用者的實際做法：

任務類型	適合本地	適合雲端
補完、行內編輯（高頻、短回答）	本地反應快、不消耗 API quota	雲端 latency 較高、成本累積
跨檔案重構、設計討論	視本地模型能力	旗艦模型（Claude、GPT-5）能力較強
隱私敏感內容、未公開 codebase	本地 prompt 不離開機器	視服務的資料政策
試新 prompt、調 prompt 工程	本地快速迭代、無 quota 壓力	雲端做最終驗證
一次性 / 偶爾的複雜任務	投資本地硬體可能不划算	雲端按使用量付費較划算

社群常見的混合做法：本地跑 30B 級 MoE 處理日常補完、跨檔案重構或設計討論切到雲端旗艦。Continue.dev 等工具支援同時設定多個 model、可以快速切換、見 1.3 VS Code + Continue.dev 整合。

給讀者的選卡判讀

整合本章與 5.0 VRAM + RAM 分層預算的建議：

NVIDIA 是當前社群預設：怕折騰、想最大化「跑得起來」概率、選 NVIDIA。
VRAM 16GB 是常見起點：16GB VRAM + 64GB RAM 配 30B MoE 卸載、是 2026 年寫 code 場景的常見配置。
頻寬比容量更影響日常體感：同容量下、頻寬接近兩倍的卡（如 5070 Ti 對 5060 Ti）日常生字速度差異明顯。
二手卡也是選項：RTX 3090 24GB 二手市場價格依在地市場變化、CUDA 支援度仍佳、適合預算敏感但想要 24GB VRAM 的使用者。
多卡不是優先升級方向：單人寫 code 場景下、單卡 + 良好設定通常勝過雙卡入門配置。

下一步

本章是模組五的最後一章。下一步可以回到模組五 _index 看其他章節、或進入模組四應用層原理看 LLM 作為系統元件的設計取捨。