Decoding on Tarragon

Sampling Constraint

Thu, 14 May 2026 00:00:00 +0000

Sampling constraint（sampling 約束）的核心概念是「在模型選下一個 token 時，限制哪些 token 可以被選到」。模型 forward pass 產生每個 token 的 logit，sampling 約束在取樣前調整候選集合或機率，讓輸出符合格式、選項或安全邊界。

概念位置

Sampling 約束屬於推論階段，不修改模型權重，也不等於模型真的理解規則。常見控制手段有 temperature、top-p / top-k、logit bias、grammar mask、JSON mode 與 constrained decoding；其中 grammar mask 是 structured output 最關鍵的一類。

1prompt → model forward pass → logits
2 ↓
3sampling constraint：調整候選 token / logit / 機率
4 ↓
5sample next token → append → 下一輪

可觀察訊號與例子

看到「低 temperature 讓答案更穩」「top-p 過濾長尾 token」「logit bias 禁止某個 token」「grammar mask 只允許合法 JSON token」就是 sampling 約束。例子是 enum 分類：如果合法答案只有 billing、technical、other，推論伺服器可以在輸出欄位值的位置只允許這幾組 token 的路徑。

Sampling 約束的風險是把模型逼到錯誤但合法的輸出。當 grammar 太窄、enum 缺少 unknown、schema 沒有容納例外狀態時，模型可能輸出看似可解析但語意不可信的值；這時要加 fallback、confidence 或人工覆核路由。

設計責任

Sampling 約束適合處理格式合法性與候選空間控制，不適合單獨承擔事實正確性。設計時先問三件事：合法 token 集合能否完整表示業務狀態、約束失敗時要 retry 還是回退、下游 validator 如何分辨「格式合法但語意可疑」。下一步路由是 Structured Output 與 Top-K / Top-P / Min-P Sampling。

Beam Search

Tue, 12 May 2026 00:00:00 +0000

Beam search 的核心概念是「每步同時保留 K 條最有機率的候選 sequence（beam width = K）、最終挑一條總機率最高的當輸出」。相比 greedy decoding 只保一條、beam search 能探索更多可能、避免「貪心一時、累積失誤」；但對話 / coding 場景常出現副作用、是 top-p sampling 取代它的原因。

概念位置

Beam search 跟其他 decoding 策略的對比：

策略	機制	適合場景	LLM 常見性
Greedy	每步選機率最大的 token	確定性任務、debugging	高
Beam search (K)	維護 K 條候選、最後挑總機率最高的	機器翻譯、summarization、有「正確答案」的任務	中（傳統 NLP 主流）
Top-k / top-p / min-p	從機率分佈隨機取樣（限制候選範圍）	對話、寫作、coding、創意輸出	高（LLM 主流）

Beam search 的算法直覺：

1beam_width = 3
2Step 1：從機率分佈挑前 3 個 token、得到 3 條 partial sequence
3Step 2：每條 partial 各自展開所有可能下個 token、組合機率排序、保留前 3
4Step 3：重複 Step 2、直到所有 beam 都遇到 EOS 或達到 max_length
5Final：選總 log-probability 最高的 beam 當輸出

Beam search 在 LLM chat / coding 場景的副作用：

輸出偏 boilerplate：K 個 beam 容易收斂到同樣的高頻開頭（「Sure!」「That’s a great question」）、各 beam 平均化掉原本該有的多樣性。
缺乏隨機性：給同 prompt 永遠生同輸出、缺乏寫作 / 創意任務需要的變化。
計算貴：K 倍記憶體 + K 倍 forward pass。

設計責任

讀 inference framework 看到 num_beams: 1 預設值就是用 greedy/sampling、num_beams: 5 才會開 beam search。寫 code 場景的判讀：日常用 top-p sampling 為主、需要確定性測試用 greedy、需要「在多個候選中挑最好的」用 best-of-N（每個獨立 sample、再選 reward 最高）而非 beam search。Beam search 在現代 LLM chat 場景已經少用、但在 translation / structured output 等「有正確答案」場景仍見。

Top-K / Top-P / Min-P Sampling

Tue, 12 May 2026 00:00:00 +0000

Top-K、Top-P（nucleus sampling）、Min-P 的核心概念是「從 softmax 出來的機率分佈中、先過濾掉低機率 token、再從剩餘候選隨機取樣」。三者是 LLM 對話 / 寫 code 場景的主流 sampling 策略、跟 greedy 對比保留隨機多樣性、跟 beam search 對比計算成本低。

概念位置

三種策略的篩選方式：

策略	機制	直覺
Top-K	只保留機率前 K 個 token、其餘設 0	固定候選數量、簡單
Top-P	把 token 依機率排序、保留「累積機率達到 P」的最小集合	動態候選數量、適應分佈尖銳度
Min-P	只保留機率 ≥ (P × max_probability) 的 token	相對閾值、避免低品質 token

範例（vocab 前 10 個 token 的機率）：

1token: A B C D E F G H I J
2prob: 0.45 0.30 0.12 0.05 0.03 0.02 0.01 0.01 0.005 0.005
3
4Top-K=3：保留 A、B、C（前 3 個）
5Top-P=0.9：累積機率達 0.9、保留 A、B、C、D（0.45+0.30+0.12+0.05 = 0.92）
6Min-P=0.1：max=0.45、閾值=0.045、保留 A、B、C、D（≥ 0.045）

三者實務上常組合使用（如 top_k=40, top_p=0.9, temperature=0.7）、各自處理不同形狀的分佈。

參數情境	適合策略
分佈非常尖（模型很確定）	Top-P / Min-P 動態縮小、Top-K 可能太大
分佈平（模型不確定）	Top-K 限制最大候選、避免取到極低品質 token
寫 code / 嚴謹任務	低 temperature (0.2 ~ 0.5) + 較緊的 Top-P (0.8 ~ 0.9)
創意 / 多樣寫作	高 temperature (0.7 ~ 1.0) + 寬鬆的 Top-P (0.95+)

設計責任

讀 inference config / Continue.dev 設定看到 top_k、top_p、min_p、temperature 就是這組參數。寫 code 場景的判讀：嚴謹任務（code generation、structured output）用低 temperature + 緊 Top-P 取「最可能對的少數 token」；創意 / 對話用高 temperature + 寬 Top-P 取多樣性。Min-P 是 2023 後流行的新策略、實務上比 Top-P 更穩、避免「分佈很尖時 Top-P 仍納入長尾低品質 token」的問題。