Instruction Following

2026-05-14

Instruction following 的核心概念是「模型能否遵守使用者或系統給定的任務約束」。它關注模型是否照格式輸出、是否留在任務範圍、是否遵守長度與禁止事項，跟 instruction-tuned model 這種訓練後模型類型相關，但不是同一件事。

概念位置

Instruction-tuned model 是訓練狀態，instruction following 是行為表現。模型可能經過 SFT，仍在細格式、邊界條件或多約束任務上失敗；也可能在簡單指令上表現穩定，但遇到衝突指令或長 prompt 漏掉限制。

測試訊號包含：是否輸出指定 JSON、是否只回答要求的欄位、是否避免多餘解釋、是否在資料不足時說不知道、是否遵守「不要呼叫工具」或「只讀不寫」。本地小模型常在簡單問答可用，但在多條格式限制同時存在時掉分。

評估 instruction following 時要做 coverage 測試：格式、長度、拒答、資料不足、衝突指令、跨語言指令都要看。失敗時優先用更清楚的 prompt、few-shot、structured output 或 validator 兜底；長期穩定需求才考慮 fine-tune。