"Sampling"
- Sampling Constraint
推論時限制下一個 token 候選集合的控制手段,用來把模型生成導向合法格式或特定選項
- Structured Output
讓 LLM 輸出可被 parser 穩定消費的推論階段設計:JSON mode、schema-guided decoding、grammar 約束都屬於這一層
- Beam Search
同時保留 K 條候選 sequence 的 decoding 策略、機器翻譯主流、chat / coding 場景慎用
- Constrained Decoding
推論時用 grammar 強制 LLM 輸出符合特定格式(JSON / regex / CFG)的 sampling 機制、把不合法 token 的機率歸零
- Logit
softmax 之前的原始實數分數、每個 vocab token 一個值、可正可負
- Softmax
把任意實數向量正規化成「總和為 1、每個分量 ∈ [0,1]」的機率分佈
- Top-K / Top-P / Min-P Sampling
從機率分佈取樣前先過濾低機率 token 的三種策略、現代 LLM 推論主流
- 降級策略
系統超載時犧牲什麼保住什麼 — 動態取樣、事件優先級、功能降級、聚合前移四種策略
- 3.5 Sampling 與 Decoding 策略
Greedy、beam search、top-k、top-p、temperature、min-p:模型輸出後怎麼挑下一個 token
- 前端感測器設計
什麼行為值得埋感測器、每類感測器的實作方式、取樣策略和效能影響 — 和 auto-intercept 的被動攔截互補
- Sampling
在事件產生階段按比例丟棄部分事件降低管線負載 — 分靜態取樣(config 固定比例)和動態取樣(背壓觸發自動降低)
- 感測器生命週期管理
產品生命週期的五個階段各啟用什麼感測器 — feature flag 整合、取樣率動態調整、感測器開關的可觀察性
- 3.10 Constrained decoding 內部:grammar mask 跟性能取捨
Constrained decoding 的內部運作:token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速