"Inference-Optimization"
- Prompt Cache 重複出現的 prompt prefix 在推論伺服器或 LLM 服務端被 cache、後續 query 跳過 prefill、大幅降 cost 跟 TTFT
- 3.9 Speculative decoding 內部:drafter / 驗證 / 加速上限 speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體