Diffusion 的核心概念是「從純雜訊開始、逐步去噪生成完整資料的神經網路架構」。產圖(Stable Diffusion、Flux、SDXL)、產影片、產音樂多半用 Diffusion。它跟寫 code 用的 Transformer 是兩個獨立的生成式 AI 路線、推論流程、工具鏈、適合任務都不同。

概念位置

Diffusion 模型一次處理整張圖、用「去噪 N 步」的方式生成;跟 Transformer 的「一個 token 接一個 token」生成方式根本不同。記憶體需求、硬體最適規格、生態系都是平行宇宙。

可觀察訊號與例子

Diffusion 跟 Transformer 工具鏈完全不通用:

維度Transformer LLMDiffusion
主流模型Gemma 4、Qwen3、Llama 3.3、GPT-5Stable Diffusion、Flux、SDXL
推論伺服器Ollama、LM Studio、llama.cpp、oMLXComfyUI、Draw Things、AUTOMATIC1111、Diffusers
推論時間每秒幾十 tok(autoregressive)整張圖 15 ~ 60 秒(一次到位)
硬體最適記憶體大、頻寬高GPU 算力高、VRAM 頻寬高
Prompt 風格instruction 形式descriptive + negative prompt
量化技術GGUF、MLX各家不同、Diffusers 為主

設計責任

聽到「換 model 就能產圖」的說法時、回到本卡確認:產圖是另一個領域、要切換到 Diffusion 工具鏈、而非在 Ollama 上下載產圖模型。寫 code 工作流跟產圖工作流分開學、避免兩邊半生不熟。對 Mac 使用者來說、Draw Things(macOS 原生 app)是產圖入門的最低門檻路徑。