MTEB
MTEB
MTEB(Massive Text Embedding Benchmark、Muennighoff et al., 2022)的核心概念是「評估 embedding model 跨多種任務通用能力的標準 benchmark」。覆蓋 8 大類任務(classification、clustering、pair classification、reranking、retrieval、STS、summarization、bitext mining)、56 個 dataset、112 種語言。是現在挑選 embedding model 最常用的 leaderboard。
概念位置
MTEB 的 8 大任務類別:
| 類別 | 任務本質 | 衡量 |
|---|---|---|
| Classification | 用 embedding 做下游分類(如情感分析) | 分類 accuracy |
| Clustering | 把相似 doc 聚到一起 | V-measure、NMI |
| Pair classification | 判斷兩段文字「相關 / 不相關」 | F1、AP |
| Reranking | 對 retrieval 結果用 embedding 重新排序 | mAP、MRR |
| Retrieval | 給 query、從大量 corpus 找相關 doc | nDCG@10、Recall@k |
| STS(Semantic Textual Similarity) | 預測句對相似度(連續分數) | Spearman correlation |
| Summarization | embedding-based summary quality | Correlation with human rating |
| Bitext mining | 跨語言找翻譯對 | F1 |
對寫 code / RAG 場景最相關:Retrieval、Reranking 兩類(粗體)。其他類別反映通用能力、但不直接影響 RAG 應用品質。
主流 embedding model 在 MTEB Retrieval 的代表性能(2026/5 估計、會持續變動):
| 模型 | 模型大小 | MTEB Retrieval avg | 適合場景 |
|---|---|---|---|
| BAAI/bge-large-en-v1.5 | ~335M | ~55 | 開源通用、英文 retrieval 主力 |
| nomic-embed-text-v1.5 | ~137M | ~52 | 開源、小巧、Ollama 內建 |
| jina-embeddings-v3 | ~570M | ~58 | 開源、多語、code 友善 |
| mxbai-embed-large-v1 | ~335M | ~55 | 開源通用 |
| OpenAI text-embedding-3-large | API only | ~64 | 雲端旗艦 |
| voyage-3 | API only | ~62 | 雲端、Anthropic 推薦 |
事實查核註:MTEB 數字依模型版本、評估配置變動、上述為 2026/5 大致排名、引用前以 MTEB Leaderboard 當前狀態為準。
設計責任
讀 embedding model 比較看到「MTEB score」就是這 benchmark。寫 code / RAG 場景的判讀:
- 看 Retrieval 子分數、不是 overall:MTEB overall 含 8 類、跟 RAG 場景關係最大的是 Retrieval 子分;通用 retrieval 分數高、reranking 分數高、就值得試
- 跟自己 domain 對齊:MTEB 多為通用語料、自己 domain(如 code、medical、legal)可能跟 MTEB 落差大;in-domain benchmark 比 MTEB 更重要
- 大小 / 速度 / 品質 trade-off:bge-large(335M)vs nomic-embed(137M)、後者跑得快、適合本地 RAG;前者品質略高、適合雲端或 latency 不敏感場景
- MTEB 高分不代表「適合你」:高分模型可能是 instruction-tuned embedding(query 需要加特定前綴)、用法跟簡單模型不同、要看 model card