VLM(Vision-Language Model、視覺語言模型)的核心概念是「同時接受圖片 + 文字輸入、產生文字輸出的 LLM 變體」。內部結構是「vision encoder 把圖片轉成 image token、跟文字 token 一起進 Transformer」。寫 code 場景的 VLM 用途:看截圖 debug、看 mockup 寫前端 code、看 architecture 白板照片寫文件。

概念位置

VLM 跟純文字 LLM 的差異:

1純文字 LLM:
2  text → tokenizer → token IDs → embedding → Transformer → output token
3
4VLM:
5  text → tokenizer → text token IDs ─┐
6                                     ├→ 統一 token sequence → Transformer → output token
7  image → vision encoder → image tokens ─┘

主流 VLM family(2026/5):

Family商業 / 開源本地可跑Coding 場景強項
GPT-4o / GPT-5 vision商業 API不可截圖理解、OCR、UI 推理
Claude 3.7 / 4 Sonnet vision商業 API不可截圖 debug、code from mockup
Gemini 2.5 Pro vision商業 API不可長視訊 / 多張圖
Qwen2.5-VL / Qwen3-VL開源7B / 32B / 72B 可本地中英 OCR、UI 元素辨識
Llama 3.2 Vision開源11B / 90B通用 vision、英文場景
Gemma 3 Vision開源4B / 12B / 27B多語、輕量本地
LLaVA / InternVL / Pixtral開源7B-34B研究 / 特定 use case

事實查核註:主流 VLM family、本地可跑狀態、coding 場景強項在 2026/5 是估計、依模型更新跟推論伺服器支援度持續變化、引用前以對應 model card 跟 Hugging Face leaderboard 為準。

設計責任

讀 model card 看到「vision」「VL」「multimodal」「-VL」「visual」就是 VLM。寫 code 場景的判讀:

  1. 任務適合用 vision 才用:純文字描述夠清楚就別塞圖、image token 多、context 跟推論成本上升
  2. 本地跑 VLM 比純文字 LLM 吃資源:vision encoder 通常 0.3-1B 參數、image 處理階段算力需求大、TTFT 變長
  3. OCR-heavy 任務不一定要 VLM:純 OCR(識別截圖中文字)用專門 OCR 工具(Tesseract / PaddleOCR)可能更穩、VLM 強項在「理解圖 + 推理」
  4. 影片不是免費:「VLM 看影片」本質是抽 frames 變多張圖、token 用量爆炸、效益看任務