"Evaluation"
- Capability Spectrum
把模型能力視為連續光譜而非支援 / 不支援二分,用覆蓋度、穩定性與失敗模式判讀真實可用性
- Frozen baseline
Eval 系統中固定特定 prompt + model 當長期對照、讓行為漂移可見的標準作法
- Instruction Following
模型遵守任務範圍、格式、限制與停止條件的能力,是評估 instruction-tuned 模型能否落地的核心訊號
- Training Example Coverage
訓練資料中的任務範例是否覆蓋足夠情境,決定模型在 function calling、格式輸出與邊界案例上的穩定性
- LLM Benchmarks(MMLU / HumanEval / SWE-bench 等)
LLM 能力評估的標準 benchmark 集合:MMLU / HumanEval / MBPP / SWE-bench / MT-Bench 等的覆蓋範圍與失效情境
- LLM-as-Judge
用 LLM 評估另一個 LLM 的輸出品質、production eval 的主流方法、500-5000× 成本降但有 bias 要處理
- Lost in the Middle
LLM 對 long context 中段內容的 attention / recall 顯著低於開頭與結尾的現象
- MTEB
Massive Text Embedding Benchmark:8 大類 56 任務、評估 embedding model 跨任務通用能力的標準
- Needle in a Haystack
把一個事實藏在 long context 不同位置、測試 LLM 能否抓出來的 benchmark 方法
- Perplexity
cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」
- Hands-on:用本地 LLM 跑 judge harness(最小可行版)
在 Ollama / LM Studio 上跑 local reasoning model 當 judge、對自己工作流案例做 eval、JSONL in / JSONL out 最小 harness
- 4.12 Embedding model 內部:訓練、選型、in-domain fine-tune
Embedding model 怎麼訓練(contrastive learning + hard negative mining)、怎麼挑(MTEB / 大小 / domain)、何時該自己 fine-tune
- 4.13 Eval 設計座標系:三軸、八象限、何時測什麼
Eval 設計三軸(objective↔subjective / component↔end-to-end / quantitative↔qualitative)、八象限的對應 eval 工具、軸選錯的訊號、跟 benchmarking / LLM-as-judge / tracing 的關係
- 4.14 Benchmarking 與評估方法論
判讀 model card benchmark 數字、做自己工作流的 in-house benchmark、量測本地推論速度的完整方法論
- 4.21 LLM-as-Judge 評估方法
LLM 評估 LLM 的 production eval 方法:rubric design、pairwise / direct scoring、三大 bias 緩解、跟 trace 串接的閉環、calibration