"Vision"
- CLIP
OpenAI 2021 提出的 contrastive image-text pretraining、現代 VLM 的 vision encoder 大多衍生自它
- Image Token
VLM 把圖片轉成「對 Transformer 而言跟 text token 同質」的向量、計入 context window 預算
- Multimodal Fusion
VLM 把 vision encoder 跟 LLM 結合的方式:early fusion / cross-attention / native multimodal 三條路線
- Vision Encoder
VLM 內部負責把圖片轉成可進 Transformer 的向量序列的模組、ViT / CLIP encoder 為主流
- VLM(Vision-Language Model)
同時吃圖片 + 文字輸入、產生文字輸出的 LLM 變體、coding 工作流中處理截圖 / 設計稿 / UI debug 的基底
- 4.15 Vision in coding workflow:本地 VLM 怎麼接寫 code
VLM 在 coding 工作流的 use cases、本地 VLM 選型、跟雲端 VLM 的分工、Continue.dev / Ollama 整合現狀