Evals

2026-05-14 Beyond LLM: Enhancing LLM Applications (Stanford CS230) Stanford CS230 Deep Learning 講座整理：從 prompt engineering、fine-tuning、RAG 到 agentic workflow、evals、multi-agent system 的全景 survey。保留英文原文。
2026-05-14 Case Study：customer support agent 從 task decomposition 到 eval 把模組四原理串成端到端案例：observe → decompose → design workflow → instrument trace → design eval → iterate。每段標出引用哪章。
2026-05-14 4.13 Eval 設計座標系：三軸、八象限、何時測什麼 Eval 設計三軸（objective↔subjective / component↔end-to-end / quantitative↔qualitative）、八象限的對應 eval 工具、軸選錯的訊號、跟 benchmarking / LLM-as-judge / tracing 的關係