Evaluation

"Evaluation"

2026-05-14 Capability Spectrum 把模型能力視為連續光譜而非支援 / 不支援二分，用覆蓋度、穩定性與失敗模式判讀真實可用性
2026-05-14 Frozen baseline Eval 系統中固定特定 prompt + model 當長期對照、讓行為漂移可見的標準作法
2026-05-14 Instruction Following 模型遵守任務範圍、格式、限制與停止條件的能力，是評估 instruction-tuned 模型能否落地的核心訊號
2026-05-14 Training Example Coverage 訓練資料中的任務範例是否覆蓋足夠情境，決定模型在 function calling、格式輸出與邊界案例上的穩定性
2026-05-12 LLM Benchmarks（MMLU / HumanEval / SWE-bench 等） LLM 能力評估的標準 benchmark 集合：MMLU / HumanEval / MBPP / SWE-bench / MT-Bench 等的覆蓋範圍與失效情境
2026-05-12 LLM-as-Judge 用 LLM 評估另一個 LLM 的輸出品質、production eval 的主流方法、500-5000× 成本降但有 bias 要處理
2026-05-12 Lost in the Middle LLM 對 long context 中段內容的 attention / recall 顯著低於開頭與結尾的現象
2026-05-12 MTEB Massive Text Embedding Benchmark：8 大類 56 任務、評估 embedding model 跨任務通用能力的標準
2026-05-12 Needle in a Haystack 把一個事實藏在 long context 不同位置、測試 LLM 能否抓出來的 benchmark 方法
2026-05-12 Perplexity cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」
2026-05-12 Hands-on：用本地 LLM 跑 judge harness（最小可行版）在 Ollama / LM Studio 上跑 local reasoning model 當 judge、對自己工作流案例做 eval、JSONL in / JSONL out 最小 harness
2026-05-12 4.12 Embedding model 內部：訓練、選型、in-domain fine-tune Embedding model 怎麼訓練（contrastive learning + hard negative mining）、怎麼挑（MTEB / 大小 / domain）、何時該自己 fine-tune
2026-05-14 4.13 Eval 設計座標系：三軸、八象限、何時測什麼 Eval 設計三軸（objective↔subjective / component↔end-to-end / quantitative↔qualitative）、八象限的對應 eval 工具、軸選錯的訊號、跟 benchmarking / LLM-as-judge / tracing 的關係
2026-05-12 4.14 Benchmarking 與評估方法論判讀 model card benchmark 數字、做自己工作流的 in-house benchmark、量測本地推論速度的完整方法論
2026-05-12 4.21 LLM-as-Judge 評估方法 LLM 評估 LLM 的 production eval 方法：rubric design、pairwise / direct scoring、三大 bias 緩解、跟 trace 串接的閉環、calibration