Vision

2026-05-12 CLIP OpenAI 2021 提出的 contrastive image-text pretraining、現代 VLM 的 vision encoder 大多衍生自它
2026-05-12 Image Token VLM 把圖片轉成「對 Transformer 而言跟 text token 同質」的向量、計入 context window 預算
2026-05-12 Multimodal Fusion VLM 把 vision encoder 跟 LLM 結合的方式：early fusion / cross-attention / native multimodal 三條路線
2026-05-12 Vision Encoder VLM 內部負責把圖片轉成可進 Transformer 的向量序列的模組、ViT / CLIP encoder 為主流
2026-05-12 VLM（Vision-Language Model）同時吃圖片 + 文字輸入、產生文字輸出的 LLM 變體、coding 工作流中處理截圖 / 設計稿 / UI debug 的基底
2026-05-12 4.15 Vision in coding workflow：本地 VLM 怎麼接寫 code VLM 在 coding 工作流的 use cases、本地 VLM 選型、跟雲端 VLM 的分工、Continue.dev / Ollama 整合現狀