"Benchmark"
- LLM Benchmarks(MMLU / HumanEval / SWE-bench 等)
LLM 能力評估的標準 benchmark 集合:MMLU / HumanEval / MBPP / SWE-bench / MT-Bench 等的覆蓋範圍與失效情境
- Case Study:Blog 語意搜尋從 pickle 到 production
為 CLI 或個人工具選 RAG storage backend、或原始選型理由被 benchmark 推翻但結論不變時,如何區分結論、理由與前提
- SQLite Backend 效能基準
寫入吞吐 / 查詢延遲 / 資源消耗的量化預期 — 不同硬體環境下 SQLite 能撐多少、邊界在哪、怎麼實測
- 4.14 Benchmarking 與評估方法論
判讀 model card benchmark 數字、做自己工作流的 in-house benchmark、量測本地推論速度的完整方法論