"Hardware"
- 5.0 VRAM + RAM 分層預算 PC 獨立 GPU 場景的記憶體預算判讀:VRAM 是快的世界、RAM 是大的世界、PCIe 把兩個世界連起來
- GPU Compute Backend GPU 加速計算的底層 API 介面(CUDA / ROCm / Vulkan / Metal / SYCL)、決定推論軟體能否用 GPU 跑得快
- NVLink NVIDIA 多 GPU 之間的高速互連介面、提供比 PCIe 更高的卡間頻寬、消費級 RTX 系列普遍不支援
- PCIe PC 上連接 GPU 跟主機板的高速序列匯流排、影響模型載入速度跟 MoE 卸載時的推論吞吐
- VRAM 顯卡上的記憶體、跟系統 RAM 是兩塊獨立預算、決定能載入多大模型權重跟 KV cache
- 0.5 Apple Silicon 記憶體預算 記憶體決定能跑什麼,Q4 量化下的可運作模型對照與系統保留