GGUF

2026-05-11

GGUF（GGML Unified Format）的核心概念是「llama.cpp 系統定義的模型權重格式」，把模型權重、tokenizer 設定、模型 metadata 全部打包進單一檔案。Ollama 內部存的就是 GGUF，多數本地推論伺服器（除了走 MLX 路線的）也支援。

概念位置

GGUF 屬於模型層的封裝格式，跟 Safetensors（Hugging Face 通用）、MLX format（Apple 生態）是平行的選擇。它的設計目標是「單一檔案、跨平台、支援多種量化等級」。Ollama、LM Studio、llama.cpp 都用 GGUF；想跑 MLX 系統的 oMLX 則要 MLX format 權重。

可觀察訊號與例子

Hugging Face 上 GGUF 檔案命名通常含量化標籤：

檔名範例	解讀
`gemma-4-31b-it-Q4_K_M.gguf`	Gemma 4、31B、instruct-tuned、Q4_K_M 量化
`Llama-3.3-70B-Instruct-Q5_K_M.gguf`	Llama 3.3、70B、instruct、Q5_K_M
`qwen3-coder-30b-Q8_0.gguf`	Qwen3-Coder、30B、Q8 量化

社群常見的高品質 GGUF 提供者有 bartowski、unsloth、TheBloke（已退坑）等；挑下載量高、最近更新的 repo 較安全。

設計責任

直接下載 GGUF 多半用於 LM Studio 與 llama.cpp 場景。Ollama 使用者通常透過 ollama pull 拉模型，背後格式也是 GGUF、但細節對使用者透明。想自己量化模型（從 Safetensors 轉 GGUF）要用 llama.cpp 的 quantize 工具，這是少數需要直接面對 GGUF 內部的場景。

#llm #knowledge-cards