GGUF(GGML Unified Format)的核心概念是「llama.cpp 系統定義的模型權重格式」,把模型權重、tokenizer 設定、模型 metadata 全部打包進單一檔案。Ollama 內部存的就是 GGUF,多數本地推論伺服器(除了走 MLX 路線的)也支援。

概念位置

GGUF 屬於模型層的封裝格式,跟 Safetensors(Hugging Face 通用)、MLX format(Apple 生態)是平行的選擇。它的設計目標是「單一檔案、跨平台、支援多種量化等級」。Ollama、LM Studio、llama.cpp 都用 GGUF;想跑 MLX 系統的 oMLX 則要 MLX format 權重。

可觀察訊號與例子

Hugging Face 上 GGUF 檔案命名通常含量化標籤:

檔名範例解讀
gemma-4-31b-it-Q4_K_M.ggufGemma 4、31B、instruct-tuned、Q4_K_M 量化
Llama-3.3-70B-Instruct-Q5_K_M.ggufLlama 3.3、70B、instruct、Q5_K_M
qwen3-coder-30b-Q8_0.ggufQwen3-Coder、30B、Q8 量化

社群常見的高品質 GGUF 提供者有 bartowskiunslothTheBloke(已退坑)等;挑下載量高、最近更新的 repo 較安全。

設計責任

直接下載 GGUF 多半用於 LM Studio 與 llama.cpp 場景。Ollama 使用者通常透過 ollama pull 拉模型,背後格式也是 GGUF、但細節對使用者透明。想自己量化模型(從 Safetensors 轉 GGUF)要用 llama.cpp 的 quantize 工具,這是少數需要直接面對 GGUF 內部的場景。