0.5 Apple Silicon 記憶體預算

2026-05-11

本章只處理 Apple Silicon Mac 的場景。Mac 是「統一記憶體」架構、CPU 跟 GPU 共用同一塊 RAM、所以判讀模型是「一塊預算切系統 / 模型 / KV cache」。Windows / Linux + 獨立 GPU 是「VRAM + 系統 RAM」兩塊分層預算、判讀模型本質不同、見模組五 5.0 VRAM + RAM 分層預算。

Apple Silicon Mac 跑本地 LLM 的核心限制是記憶體大小、而非 CPU 或 GPU 算力。記憶體決定能載入多大的模型；模型載得進、推論才有得跑（生字速度則由 memory bandwidth 決定、見 0.1）。本章把「24GB 能跑 70B」這類含糊說法、換成可操作的記憶體預算判讀。

讀完本章後，你可以對自己這台 Mac 直接回答：能跑哪些模型、要用什麼量化、要留多少給系統、風扇會不會狂轉、什麼時候該升級。

本章目標

讀完本章後，你應該能：

看 Mac 規格立刻知道能跑哪一級的模型。
理解量化等級跟模型大小的乘積為何決定可行性。
為「給系統留多少記憶體」這件事設一個合理上界。
判斷自己這台 Mac 適不適合跑本地 LLM。

記憶體預算的基本算式

跑本地 LLM 的記憶體預算大致拆成三塊：

1總記憶體 = 系統與其他 app（保留）+ 模型權重 + KV cache + 推論中間結果

各塊的估算原則：

系統與其他 app：至少留 8GB 給 macOS、VS Code、瀏覽器與其他工作流程。重度多工建議留 10 ~ 12GB。
模型權重：用「參數規模 × 每權重 bits / 8」算出 bytes。其中「Q4」代表每個權重佔 4 bits。例如 31B 模型 Q4 量化 = 31 × 4 / 8 = 15.5 GB、加上 metadata 與 overhead 約 16 ~ 18GB。
KV cache：跟 context 長度成正比。短 context（< 2K tokens）約 0.5 ~ 1GB、長 context（10K+ tokens）可能超過 5GB。
推論中間結果：通常 1 ~ 2GB。

實際留給模型的可用記憶體 = 總記憶體 − 系統保留（8GB）− KV cache（2 ~ 5GB）− 推論 overhead（2GB）。

Mac 記憶體與可運作模型對照

下表是 2026 年 5 月、Apple Silicon Mac 在 Q4 量化下的可運作模型對照。預設 Q4 是因為它是 31B 等級寫 code 場景的甜蜜點、下節「為什麼 32GB 是寫 code 場景的甜蜜點」會展開原因。所有體感標籤都假設「主要用途是寫 code」、純文字對話的甜蜜點會往較小模型偏。

Mac 記憶體	留給模型	能跑的最大模型	體感	備註
8GB	0GB	4B 以上模型互動體感失效	不在本指南範圍	連 4B 模型 Q4 都很勉強
16GB	6 ~ 8GB	Gemma 4 E4B、Qwen3 7B、Llama 3.2 8B	勉強	同時開 VS Code 就會吃緊、常 swap
24GB	12 ~ 14GB	Gemma 4 26B A4B（MoE、見下段）、Qwen3-Coder 14B、Llama 3.3 13B	堪用	多數工程師的起點
32GB	18 ~ 22GB	Gemma 4 31B（含 MTP drafter）甜蜜點、Qwen3-Coder 30B Q4	順暢	寫 code 場景最佳價格效能比
48GB	32 ~ 36GB	Qwen3-Coder 32B Q5、Llama 3.3 70B Q3	順暢	開始接近 GPT-4 mini 等級
64GB	48 ~ 52GB	Qwen3-Coder 32B bf16、Llama 3.3 70B Q4	順暢	大模型用較高量化、品質更好
96GB+	80GB+	Llama 3.3 70B Q8、實驗 100B+ 模型	順暢	過度配置、除非有特殊需求

讀這張表要注意四件事：

體感是 coding 場景。純對話、寫文章、解釋程式的記憶體門檻較低。
量化等級可以調整。32GB 跑 31B Q4 順暢、跑 31B Q5 也行（吃 21GB 左右）；跑 70B Q3 會崩潰，因為 70B Q3 約 26GB，加上 KV cache 跟系統，超過 32GB。
fanless 機種要打折。MacBook Air 系列因為散熱被動，跑大型模型 5 分鐘後會降頻，實際生字速度比有風扇的同代機器低 30 ~ 50%。
記憶體不是 SSD。Apple Silicon 的「統一記憶體」是 RAM、不是 SSD swap。雖然 macOS 會 swap、但 swap 後生字速度會慢一個量級以上、實質喪失互動可用性。

MoE 與 dense 模型在記憶體預算上的差異

Mixture of Experts（MoE）模型跟 dense 模型的記憶體 / 速度判讀方式不同、Gemma 4 26B A4B 這類 MoE 模型在上表「24GB Mac」一格出現時、容易讓人誤以為跟 14B dense 同等的記憶體需求。實際差異：

維度	Dense 模型（如 Gemma 4 31B）	MoE 模型（如 Gemma 4 26B A4B）
名義參數	31B 全部參與每個 token	26B 總參數、每個 token 啟用約 4B（A4B 表示 active 4B）
記憶體佔用	整份權重必須塞進記憶體（18GB Q4）	整份權重也要塞（13GB Q4）、但活躍部分小
速度上限	頻寬 / 整份權重 ≈ 30 tok/s	頻寬 / 活躍權重 ≈ 80 tok/s（同硬體下）
量化容忍度	Q4 31B 仍可用	Q4 在 MoE 上的影響跟 dense 不同、需 case-by-case 驗證

判讀重點：MoE 的記憶體需求看「總參數」、但速度看「啟用參數」。同記憶體預算下 MoE 通常跑得比 dense 快、但能力強度比較需配合具體 benchmark 判讀、名義參數僅作初步篩選。PC 獨立 GPU 上的 MoE 部署策略（CPU 卸載專家層）見 MoE CPU 卸載卡片。

為什麼 32GB 是寫 code 場景的甜蜜點

32GB Mac 跑 Gemma 4 31B（Q4 + MTP）是 2026 年 5 月寫 code 場景最佳的價格效能比，原因是三個趨勢的交會：

31B 模型剛好能力夠用。Gemma 4 31B / Qwen3-Coder 30B 在 SWE-bench 等 coding benchmark 上的表現大幅超越 14B 模型，接近 GPT-4 mini 等級。14B 等級的模型在跨檔案任務上仍經常失誤。
Q4 量化在 31B 上的品質衰減仍可接受。Q4 在 7B 模型上品質衰減明顯，但 31B 模型有「參數冗餘」，Q4 反而是甜蜜點。
32GB 剛好夠 18GB 模型 + 8GB 系統 + 6GB 其他。再小（24GB）跑 31B Q4 會吃緊；再大（48GB）邊際效益降低，除非要跑 70B。

對應的 Mac 機型（2026 年 5 月可購）：

MacBook Pro 14 / 16 with M4 Pro / Max，32GB 配置。
Mac mini M4 Pro，32GB 配置（最便宜的進入點）。
Mac Studio M4 Max，32GB 起跳。

如果你正準備買新 Mac 主要為了跑本地 LLM 寫 code、32GB 在 [預算敏感、單機、Gemma 4 31B 為主] 通常是最划算的起點。16GB 在 [>14B 模型 / 多工] 會被擠到 swap、48GB+ 在純寫 code 場景超過甜蜜點、但對 [長 context coding agent / 70B 模型] 仍有實際價值。

16GB Mac 的可行策略

16GB Mac 是現實上的最小可用配置。能跑的最大實用模型是 Gemma 4 E4B（Google 的 8B 級實驗版本）或 Qwen3 7B。體感上：

同時開 VS Code + Chrome + Slack 跟跑模型會擠到 swap、整台 Mac 變慢；建議跑模型時關掉其他重度 app。
模型品質明顯弱於 31B 等級。簡單 function 補完還行、跨檔案重構交給雲端旗艦更划算。
適合「偶爾用本地、主要還是雲端」的混用策略。

如果你的 Mac 是 16GB，先用 Gemma 4 E4B 試試看，評估自己工作流是否真的需要本地 LLM。多數情況下答案是「雲端 API 月費比換 Mac 便宜」。

KV cache 與長 context 的記憶體陷阱

模型權重佔的記憶體是固定的，但 KV cache 隨 context 長度線性增加。長 context 場景的記憶體陷阱常被忽略。

接近真實的估算（Gemma 4 31B、Q4 量化）：

Context 長度	KV cache 估算	總記憶體需求
1K tokens	~0.5 GB	模型 18GB + 0.5GB
4K tokens	~2 GB	模型 18GB + 2GB
16K tokens	~8 GB	模型 18GB + 8GB
32K tokens	~16 GB	模型 18GB + 16GB → 32GB Mac 開始 swap

陷阱是把 context 長度設到模型支援的上限（如 32K、128K）卻沒算 KV cache 成本。32GB Mac 跑 31B 模型，實際可用 context 大約只有 8 ~ 16K tokens；超過就會 swap，速度崩潰。

解法：

短 prompt 場景（compact code completion）：完全沒問題，多數設定都在 2K 以下。
中等 context（4 ~ 16K）：32GB Mac 仍可運作，但要留意 KV cache 吃多少。
長 context（16K+）：考慮 oMLX 的 paged SSD KV cache（把 KV cache 部分頁面換出到 SSD、換取較長 context、代價是 TTFT 與生字速度略增）。詳見 0.4 MLX / MTP / oMLX。

風扇、發熱與降頻

Apple Silicon Mac 跑本地 LLM 會持續滿載 CPU / GPU。實際體感：

機型	散熱	持續推論體感
MacBook Air（fanless）	被動	5 ~ 10 分鐘後降頻，生字速度掉 30 ~ 50%
MacBook Pro 14 / 16	主動	風扇明顯轉，但能維持效能
Mac mini	主動	風扇轉但較安靜
Mac Studio	主動	體感安靜，效能維持最好

對「全天候用本地 LLM」的工作流，桌機型（Mac mini、Studio）比筆電好。筆電上跑長時間推論還要考慮電池與發熱對手部舒適度的影響。

按情境選機型決策表

決策表把前面三個變數（手上預算 / 想跑的 model size / 主要用途）摺成一張快查、依情境定位、不需要重新讀整章。詳細的模型選型考慮見 1.4 模型選型優先順序。

情境	建議
已有 16GB Mac，想試本地	用 Gemma 4 E4B 試一週，主力仍用雲端，評估是否值得升級
已有 24GB Mac，想試本地	Gemma 4 12B 或 Qwen3-Coder 14B，是合理起點
已有 32GB Mac	Gemma 4 31B MTP 是預設選擇，能力 / 速度甜蜜點
已有 48GB+ Mac	Qwen3-Coder 32B 或 Llama 3.3 70B Q4，能力接近 GPT-4 mini
正準備買新 Mac，預算敏感	Mac mini M4 Pro 32GB 是最划算的進入點
正準備買新 Mac，要兼顧攜帶	MacBook Pro 14 with M4 Pro 32GB
正準備買新 Mac，要追求最大本地能力	Mac Studio M4 Max 64GB+

陷阱是把 96GB+ 配置當成「未來證明」。模型架構演進可能讓現在的記憶體預算明年就不重要（例如 1-bit 量化、新的稀疏架構）。買超大記憶體前先確認有具體現有需求支撐；「以後可能跑得到 100B+ 模型」這類期待風險很高。

下一章：0.6 判讀本地 LLM 資訊的五個框架、把心智模型轉成判讀資訊的反射。

#llm #foundations #hardware #apple-silicon