"Evals"
- Beyond LLM: Enhancing LLM Applications (Stanford CS230)
Stanford CS230 Deep Learning 講座整理:從 prompt engineering、fine-tuning、RAG 到 agentic workflow、evals、multi-agent system 的全景 survey。保留英文原文。
- Case Study:customer support agent 從 task decomposition 到 eval
把模組四原理串成端到端案例:observe → decompose → design workflow → instrument trace → design eval → iterate。每段標出引用哪章。
- 4.13 Eval 設計座標系:三軸、八象限、何時測什麼
Eval 設計三軸(objective↔subjective / component↔end-to-end / quantitative↔qualitative)、八象限的對應 eval 工具、軸選錯的訊號、跟 benchmarking / LLM-as-judge / tracing 的關係