跑穩 推論伺服器 後、下一個決策是「該裝哪個模型」。PC 場景的選型有 Mac 沒有的變數:MoE 模型搭配 CPU 卸載 讓「同樣 16GB VRAM、要全載 14B Dense 還是卸載 30B MoE」變成主要取捨;MoE 的核心判讀軸是 active parameter 比例。本章用優先順序而不是對比表羅列、依不同 VRAM 容量給出社群常見的候選清單與適用情境。模型檔案格式以 GGUF 為主、各等級的 量化 版本是選型的第二軸;coding 能力評估的常見參考是 SWE-bench 等公開 benchmark;模型來源信任的判讀見 model card

事實查核註:本章引用的模型名稱、能力等級、量化版本以 2026 年 5 月的社群可用資源為基準。模型發布速度快、3 ~ 6 個月後可能有新候選、本章建議用具體版本日期跟對應的官方 model card / 技術報告校準。

本章目標

  1. 認識 PC 場景特有的「全載 Dense vs 卸載 MoE」選型軸。
  2. 知道不同 VRAM 容量對應的候選模型清單。
  3. 區分「coding 專用模型」跟「通用模型」對寫 code 任務的差異。
  4. 知道量化版本的取捨(Q4_K_M / Q5_K_M / Q6_K 的選擇)。
  5. 認識選型決策的觀察期跟換模型的時機。

PC 場景特有的選型軸

Mac 統一記憶體場景下、選型主要看「能不能塞進記憶體」。PC 場景多了 MoE 卸載這個變數、變成三軸選型:

1選型三軸:
2├── VRAM 是否能全載      → 決定是否需要卸載
3├── MoE vs Dense          → 決定卸載的代價大小
4└── coding vs 通用        → 決定能力對寫 code 任務的契合度

兩條典型路線(同樣 16GB VRAM):

路線範例模型優勢代價
全載 14B DenseQwen3 14B、CodeLlama 13B、DeepSeek-Coder-V2 16B生字速度上限高、Latency 較穩模型能力 14B 級、跨檔案任務成功率較低
卸載 30B MoEQwen3-30B-A3B、Llama 4 Scout模型能力 30B 級、長 context 友善生字速度低於全載、對 RAM 容量有較高要求

社群多數寫 code 場景的回報傾向「卸載 30B MoE 對任務成敗的幫助大於速度損失」、但工作流以高頻短補完為主的使用者、有時偏好全載 14B Dense 的速度。實際取捨需用自己的工作流任務校準。

16GB VRAM + 64GB RAM 的候選清單

這是 2026 年 5 月 PC 場景最常被討論的配置、對應幾個主要候選:

候選一:Qwen3-30B-A3B(MoE、卸載)

模型定位:MoE 架構、總參數約 30B、active parameter 約 3B、coding / 通用混合訓練。

啟動旗標起點(GGUF Q4_K_M、需配合 5.1):

1llama-server -m Qwen3-30B-A3B-Q4_K_M.gguf \
2  -ngl 99 --n-cpu-moe 30 \
3  --cache-type-k q8_0 --cache-type-v q4_0 -fa \
4  -c 32768

主要使用情境

  1. 跨檔案重構、需要理解較多上下文的任務。
  2. 長 context 場景(RAG、大型 codebase 索引)。
  3. 中文 + 英文混合的 prompt。

候選二:Qwen3 14B(Dense、全載)

模型定位:Dense 架構、14B 參數、通用 + coding 混合訓練。

啟動旗標起點

1llama-server -m Qwen3-14B-Q4_K_M.gguf \
2  -ngl 99 \
3  --cache-type-k q8_0 --cache-type-v q8_0 -fa \
4  -c 32768

主要使用情境

  1. 工作流以高頻短補完為主、對生字即時體感要求高。
  2. 想保持較穩的 latency、避開 MoE 卸載的調參。
  3. 系統 RAM 只有 32GB、卸載空間有限。

候選三:Qwen3-Coder 30B / CodeLlama 13B 等 coding 專用模型

模型定位:在通用訓練後、用 code corpus 做了額外的 instruction tuning 或 continued pre-training。

社群常見回報

  • 在「補完 / 行內編輯」這種純 code-completion 任務上、coding 專用模型通常表現較好。
  • 在「需要解釋程式碼 / 設計討論」混合任務上、通用模型有時更自然。

選擇邏輯:若你的工作流以純補完為主、coding 專用模型是合理優先;若以 chat-based 設計討論為主、通用模型也許更合適。

量化版本的取捨

GGUF 量化版本對同一模型的選擇:

量化bits/權重適用情境
Q8_08VRAM / RAM 充裕、想接近原始品質
Q6_K6.56平衡、品質損失社群回報為輕微
Q5_K_M5.5VRAM 介於 Q4 跟 Q8 之間時的選擇
Q4_K_M4.5寫 code 場景的常見起點、體積 / 品質平衡
Q3_K_M3.5VRAM 緊張時退一步、品質衰減社群回報為明顯

選擇邏輯:先用 Q4_K_M 起步、若品質符合需求且 VRAM 有餘量、可試 Q5 / Q6;若 VRAM 不足、優先考慮「換小一級的模型 + Q5/Q6」而非「同模型 + Q3」、因為品質衰減在小模型上較易感知。

24GB VRAM 的候選清單

24GB VRAM(如 RTX 4090、RTX 3090)能跑全載 32B Dense 或重度卸載 70B MoE:

模型路線適用情境
Qwen3-32B、Qwen2.5-Coder-32BDense 全載 Q4_K_M寫 code 場景能力較 14B 顯著提升
Qwen3-30B-A3B 全載 / 輕度卸載MoE比 16GB 卸載速度快、可開更大 context
Llama 3.3 70B Q3 全載 / Q4 卸載Dense + 重度卸載對能力極限有需求、可接受較慢生字
DeepSeek V3 / Llama 4 Scout 卸載大型 MoE適合需要長 context + 多領域的工作流

選擇邏輯:24GB 是「Dense 32B 級」跟「MoE 70B 級」的分水嶺;多數寫 code 場景在 Dense 32B 級已能勝任、再往 70B 級的邊際效益依任務變化。

32GB VRAM 的候選清單

32GB VRAM(如 RTX 5090)能跑 70B Dense Q4 全載:

模型路線適用情境
Llama 3.3 70B Q4_K_MDense 全載通用能力強、Latency 穩定
Qwen2.5-72B Q4_K_MDense 全載中文 / 多語言場景
Llama 4 Maverick 等大型 MoEMoE 全載 / 輕度卸載長 context、多任務、active parameter 友善生字速度

32GB VRAM 場景下、選型回到「能力 vs 生字速度」的傳統取捨、MoE 卸載這個變數的影響相對減弱。

8GB / 12GB VRAM 的候選清單

VRAM 較小的場景、候選清單較短:

VRAM候選模型適用情境
8GBQwen3 7B、Gemma 4 8B、Llama 3.2 8B入門體驗、補完任務尚可、跨檔案任務通常需混用雲端
12GBQwen3 14B Q4 全載、20B MoE Q4 卸載部分層介於入門跟主流之間、可選 Dense 或 MoE 起步

8GB 場景下、本地 LLM 的「跑得起來但能力有限」需先設好期望、見 1.5 期望管理(跨平台共用)。

coding 專用 vs 通用模型

選型的另一條軸是「coding 專用模型 vs 通用模型」:

維度coding 專用模型通用模型
補完 / 行內編輯品質社群多數回報較佳視具體模型而定
跨檔案重構視訓練資料涵蓋程度而定大型通用模型的推理能力有時表現較好
設計討論 / 解釋程式碼視訓練模式(純 completion vs instruction tuned)而定instruction tuned 的通用模型通常較自然
中文 / 英文 prompt視模型語言訓練比例視模型語言訓練比例
Tool use / function calling視模型是否做過對應訓練視模型是否做過對應訓練

選擇邏輯:純補完場景優先 coding 專用;chat-based 工作流通用模型也許更合適;多數使用者可以用兩個(一個 coding 專用 + 一個通用)、依任務切換。

選型決策步驟

實際選模型時、可以照下面的步驟:

  1. 盤點硬體:VRAM 容量、系統 RAM 容量、CPU 性能。
  2. 盤點工作流:補完為主 vs 跨檔案任務為主、短 prompt 為主 vs 長 prompt 為主、純 code vs 設計討論混合。
  3. 依 VRAM 級別查上面候選清單:選 1 ~ 2 個起點模型。
  4. 用 Q4_K_M 量化版本起步:跑一週實測、用代表性任務記錄品質、速度、VRAM 用量。
  5. 依瓶頸調整
    • 品質不夠 → 試更大模型 / 更高量化等級 / 不同訓練取向
    • 速度不夠 → 試較小 Dense 全載 / 減少卸載
    • VRAM 不夠 → 加量化(Q5 → Q4)、加 MoE 卸載、量化 KV cache
  6. 建立可重複的校準腳本:把代表性任務寫成 prompt 集、新模型來時跑一次回歸測試。

觀察期與換模型時機

社群常見的換模型節奏:

  1. 新模型發布:本地 LLM 模型平均每 2 ~ 3 個月有新候選。
  2. 觀察期:新模型剛發布時、量化版本可能不全、社群實測案例較少;建議等 2 ~ 4 週、看是否有 Q4_K_M / Q5_K_M 等常用量化、社群回報是否穩定。
  3. 回歸測試:用自己的校準腳本跑一次、比較跟現有主力模型的品質、速度、VRAM。
  4. 切換:明顯優於現有主力 + 校準腳本通過 + 旗標設定穩定 → 才切換。

過早跳到新模型的常見代價:量化版本不穩、社群 issue 還在湧現、自己的旗標設定要從頭調。

下一章

下一章:5.6 GPU 廠商差異、處理 NVIDIA / AMD / Intel 在 llama.cpp 生態的相對位置。