Benchmark

2026-05-12 LLM Benchmarks（MMLU / HumanEval / SWE-bench 等） LLM 能力評估的標準 benchmark 集合：MMLU / HumanEval / MBPP / SWE-bench / MT-Bench 等的覆蓋範圍與失效情境
2026-07-01 Case Study：Blog 語意搜尋從 pickle 到 production 為 CLI 或個人工具選 RAG storage backend、或原始選型理由被 benchmark 推翻但結論不變時，如何區分結論、理由與前提
2026-06-20 SQLite Backend 效能基準寫入吞吐 / 查詢延遲 / 資源消耗的量化預期 — 不同硬體環境下 SQLite 能撐多少、邊界在哪、怎麼實測
2026-05-12 4.14 Benchmarking 與評估方法論判讀 model card benchmark 數字、做自己工作流的 in-house benchmark、量測本地推論速度的完整方法論