"Embedding"
- Word2Vec
早期靜態詞向量方法,用 skip-gram / CBOW 從上下文學出詞語 embedding
- Contrastive Learning
用「相關 vs 不相關」成對 / 三元組樣本訓練 embedding 的方法、現代 embedding model 的核心訓練 paradigm
- MTEB
Massive Text Embedding Benchmark:8 大類 56 任務、評估 embedding model 跨任務通用能力的標準
- 3.1 Embedding 空間
token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的
- 4.1 RAG 原理:retrieval + augmentation 模式
為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因
- Hands-on:用 blog content 當 corpus 跑 RAG
200 行 Python:embedding + cosine retrieval + Ollama chat、validating 4.0 RAG 原理
- 4.12 Embedding model 內部:訓練、選型、in-domain fine-tune
Embedding model 怎麼訓練(contrastive learning + hard negative mining)、怎麼挑(MTEB / 大小 / domain)、何時該自己 fine-tune
- 4.22 RAG storage 工程:從 pickle 到 vector database 的選型判讀
RAG storage backend 選型:規模到哪個階段該從 in-memory 升級到 vector DB、dependency chain 如何收窄選項
- pgvector Deep Dive:HNSW / IVFFlat 取捨跟跟專業 Vector DB 對比
pgvector 是 PG extension、加 *vector* type 跟兩種 ANN index(IVFFlat / HNSW)、把 PG 變成可用 vector DB。本文走 vector type + distance operator、IVFFlat vs HNSW 取捨(build time / recall / memory)、quantization 跟 dimension reduction、5 production 踩雷(dimension 超 2000 限制 / HNSW build 太慢 / IVFFlat 不重建 recall 漂移 / hybrid search 設計 / memory budget)、跟 Pinecone / Weaviate / Milvus 對比的決策框架