Prompting on Tarragon

Few-shot prompting

Thu, 14 May 2026 00:00:00 +0000

Few-shot prompting 的核心概念是「在 prompt 內塞幾個 input-output 範例、讓模型透過範例對齊任務」。Zero-shot 是不給範例直接給任務、few-shot 是給 1-N 個範例、模型從範例推任務分佈。屬於 in-context learning 的最常見形態、是「對齊任務」這件事的 prompt 層解法、跟 fine-tune 是兩個 endpoint。

概念位置

Zero-shot vs few-shot 對照：

 1Zero-shot：
 2 Classify the tone as positive/negative/neutral.
 3 Review: "Fine, but I expected more."
 4 → 模型自己判斷「中性」邊界
 5
 6Few-shot：
 7 Classify the tone as positive/negative/neutral.
 8 Examples:
 9 "Exceeded my expectations" → positive
10 "OK, but I wish more features" → negative
11 "Service was adequate" → neutral
12 Review: "Fine, but I expected more."
13 → 模型按範例對齊、更傾向 negative

Few-shot 跟 fine-tune 對照：

維度	Few-shot in prompt	Fine-tune
Iteration	分鐘級、改 prompt 即可	天級、要 retrain
範例容量	受 context window 限制（10–50）	可以幾千幾萬、整個 dataset 都行
Cost	每次 inference 多付 token	一次性訓練 cost、之後 inference 不變
模型遷移	跨模型即時換、prompt 直接搬	綁特定 base model、換模型要 retrain

設計責任

讀 prompt engineering 文章或寫 production prompt 看到「few-shot」「in-context examples」就是這個機制。實作判讀：

適用任務有「我的標準跟模型預設不同」：分類邊界、抽取格式、tone alignment、structured output 形狀。
失效在範例選不好：cherry-picked 不代表 distribution、cover 不到 edge case、範例彼此衝突。
跟 chain-of-thought 可疊（few-shot CoT 是經典組合）、跟 fine-tune 是 endpoint 取捨。
何時轉 fine-tune：範例多到撐爆 context window 又每天都用、才考慮。預設先 few-shot iterate。
Retrieval-augmented prompting：把寫死的 few-shot 換成從範例庫即時 retrieve、屬於 RAG 概念延伸。

完整 prompt 技術 landscape 見 4.0 Prompt 技術光譜。

In-Context Learning

Thu, 14 May 2026 00:00:00 +0000

In-context learning（ICL）的核心概念是「模型在不更新權重的情況下，從 context window 內資訊臨時學會任務格式與判準」。它是 LLM 跟傳統模型最不同的能力之一：任務規則可以放在 context 裡，而不是一定要 fine-tune 進權重。

概念位置

ICL 是推論時行為，不是訓練流程。Few-shot prompting 是 ICL 最常見的操作方式；SFT、LoRA、QLoRA 則是修改權重的訓練或微調方式。

可觀察訊號與例子

給模型三個分類範例後，第四個樣本就按同一標準分類，這是 ICL。把專案命名規則、輸出格式、review rubric 放進 prompt，模型在當次回合遵守，也屬於 ICL。

設計責任

ICL 適合快速迭代與少量範例；當範例多到吃滿 context window、每天重複使用且標準穩定時，再考慮 fine-tune。需要穩定輸出格式時，ICL 應搭配 structured output 或 validator。

Instruction Following

Thu, 14 May 2026 00:00:00 +0000

Instruction following 的核心概念是「模型能否遵守使用者或系統給定的任務約束」。它關注模型是否照格式輸出、是否留在任務範圍、是否遵守長度與禁止事項，跟 instruction-tuned model 這種訓練後模型類型相關，但不是同一件事。

概念位置

Instruction-tuned model 是訓練狀態，instruction following 是行為表現。模型可能經過 SFT，仍在細格式、邊界條件或多約束任務上失敗；也可能在簡單指令上表現穩定，但遇到衝突指令或長 prompt 漏掉限制。

可觀察訊號與例子

測試訊號包含：是否輸出指定 JSON、是否只回答要求的欄位、是否避免多餘解釋、是否在資料不足時說不知道、是否遵守「不要呼叫工具」或「只讀不寫」。本地小模型常在簡單問答可用，但在多條格式限制同時存在時掉分。

設計責任

評估 instruction following 時要做 coverage 測試：格式、長度、拒答、資料不足、衝突指令、跨語言指令都要看。失敗時優先用更清楚的 prompt、few-shot、structured output 或 validator 兜底；長期穩定需求才考慮 fine-tune。

Reflection / Self-critique

Thu, 14 May 2026 00:00:00 +0000

Reflection（self-critique）的核心概念是「模型先生成一個草版、再對自己的草版 critique、再修改」。屬於推理引導類的 prompting 技術、也是 workflow pattern 的基本模式之一。跟 chain-of-thought 不同：CoT 是「過程要 explicit」、reflection 是「先寫一版再批評再改」、有明確的兩階段。

概念位置

Reflection 三步：

1[Generate] 模型生成 v1
2 ↓
3[Critique] 模型（或 critic LLM）對 v1 給回饋
4 ↓
5[Refine] 模型按回饋生成 v2
6 ↓
7(可選 loop)

跟其他模式對照：

模式	結構	主要解的問題
CoT	Think step by step、單次生成	隱式推理變 explicit
Reflection	Generate → critique → refine	一次生成不夠好、需要二次審視
Multi-step	Retrieve / decide / retrieve again	資訊不足、要動態補資料

設計責任

讀 prompt engineering / agent paper 看到「reflection」「self-critique」「self-refine」「critic」就是這個機制。實作判讀：

適用模型有能力辨識「自己寫的不夠好」、critique 跟 generator 不會共用同樣 blind spot。
失敗在 systematic error：critique 跟 generator 是同個模型、訓練分佈中的盲點不會因為「再想一次」消失。判讀訊號：critique 每次給很像的建議、或修完還是同一類錯——換 critic 用不同 base model、或加外部驗證（test、lint、schema）取代 LLM critique。
失敗在低能力模型：critic 能力不足、產不出有用建議、徒增 cost / latency。
失敗在無限循環：沒有客觀停止訊號、reflection 一直跑、cost 爆掉。緩解：step cap + 外部 metric（test pass、schema valid）。
失敗在過度修正：每次 reflection 都改一點、累積結果變糟（過度 fitting critic 意見）。緩解：保留 baseline、reflection 結果要跟 baseline 比、不一定採用。

Agent loop 是 reflection 的延伸特例、進階失敗模式見 4.4 Agent 架構。完整 workflow pattern 比較見 4.7 Workflow patterns。

Chain-of-Thought（CoT）

Tue, 12 May 2026 00:00:00 +0000

Chain-of-Thought（CoT、思維鏈、Wei et al., 2022）的核心概念是「讓 LLM 先輸出一連串中間推理步驟、再給最終答案」、不是直接從問題跳到結論。CoT 是 reasoning model 的基礎機制；prompting 形式（few-shot 提示）跟訓練形式（reasoning RLHF / RL）兩條路都圍繞它演化。

概念位置

CoT 的兩種觸發方式：

1直接回答：
2 Q: 23 × 47 = ?
3 A: 1081
4
5Chain-of-Thought：
6 Q: 23 × 47 = ?
7 A: 先算 20 × 47 = 940、再算 3 × 47 = 141、加起來 940 + 141 = 1081。
8 答案：1081

CoT 在 LLM 演化中的兩個階段：

階段	觸發方式	代表模型 / 技術
Prompting CoT	Few-shot 提示「請逐步思考」或「let’s think step by step」	GPT-3、PaLM、早期 instruct 模型
Training CoT	訓練資料含大量 reasoning trace、模型學會「自然」用 CoT	GPT-4、Claude 3.5、Gemini Pro
Reasoning RL	RL 階段獎勵「正確答案的長 reasoning trace」、模型學會用更長 CoT	DeepSeek-R1、o1 / o3、Qwen-QwQ、Claude 3.7 Sonnet thinking

第三階段的特性：模型自己決定「該想多久」（test-time compute 動態擴展）、推理 trace 可達數千 token、最終答案才是少數 token。

設計責任

讀 prompt engineering / paper 看到「CoT」「step by step」「reasoning trace」「thinking」等就是這個機制。寫 code 場景的判讀：

複雜推理任務開 CoT 通常有幫助（math、debug、algorithm design）— 即使是 instruct model 也能透過 prompting 觸發
簡單任務 CoT 浪費 token（autocomplete、單行查詢、純查表）
Reasoning model 的 CoT 是內建行為、不需要用 prompt 觸發、但 reasoning trace 會消耗大量 token（推論時間、context、API 成本都翻倍）
本地跑 reasoning model：DeepSeek-R1 distill 系列、Qwen-QwQ 等可本地跑、但需要較大 context window 容納 reasoning trace