Safety

2026-05-14 Guardrail 在 LLM fuzzy 行為外層加上 schema、validator、policy、human review 與 monitoring 的控制設計
2026-05-14 Human-in-the-loop（HITL）人類介入 LLM 工作流的設計：三種觸發時機（pre-act / mid-stream / post-hoc）、避免橡皮圖章化的四條件
2026-05-12 Hallucination LLM 生成內容看起來合理但事實錯誤、引用不存在的來源、虛構不存在的 entity 的現象
2026-05-12 Refusal Rate LLM 拒絕回答 prompt 的比例、是 production LLM 服務偵測對齊強度跟異常行為的常用訊號