"Safety"
- Guardrail 在 LLM fuzzy 行為外層加上 schema、validator、policy、human review 與 monitoring 的控制設計
- Human-in-the-loop(HITL) 人類介入 LLM 工作流的設計:三種觸發時機(pre-act / mid-stream / post-hoc)、避免橡皮圖章化的四條件
- Hallucination LLM 生成內容看起來合理但事實錯誤、引用不存在的來源、虛構不存在的 entity 的現象
- Refusal Rate LLM 拒絕回答 prompt 的比例、是 production LLM 服務偵測對齊強度跟異常行為的常用訊號