Embedding

"Embedding"

2026-05-14 Word2Vec 早期靜態詞向量方法，用 skip-gram / CBOW 從上下文學出詞語 embedding
2026-05-12 Contrastive Learning 用「相關 vs 不相關」成對 / 三元組樣本訓練 embedding 的方法、現代 embedding model 的核心訓練 paradigm
2026-05-12 MTEB Massive Text Embedding Benchmark：8 大類 56 任務、評估 embedding model 跨任務通用能力的標準
2026-05-11 3.1 Embedding 空間 token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的
2026-05-11 4.1 RAG 原理：retrieval + augmentation 模式為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因
2026-05-12 Hands-on：用 blog content 當 corpus 跑 RAG 200 行 Python：embedding + cosine retrieval + Ollama chat、validating 4.0 RAG 原理
2026-05-12 4.12 Embedding model 內部：訓練、選型、in-domain fine-tune Embedding model 怎麼訓練（contrastive learning + hard negative mining）、怎麼挑（MTEB / 大小 / domain）、何時該自己 fine-tune
2026-07-01 4.22 RAG storage 工程：從 pickle 到 vector database 的選型判讀 RAG storage backend 選型：規模到哪個階段該從 in-memory 升級到 vector DB、dependency chain 如何收窄選項
2026-05-19 pgvector Deep Dive：HNSW / IVFFlat 取捨跟跟專業 Vector DB 對比 pgvector 是 PG extension、加 *vector* type 跟兩種 ANN index（IVFFlat / HNSW）、把 PG 變成可用 vector DB。本文走 vector type + distance operator、IVFFlat vs HNSW 取捨（build time / recall / memory）、quantization 跟 dimension reduction、5 production 踩雷（dimension 超 2000 限制 / HNSW build 太慢 / IVFFlat 不重建 recall 漂移 / hybrid search 設計 / memory budget）、跟 Pinecone / Weaviate / Milvus 對比的決策框架