"Reasoning"
- Chain-of-Thought(CoT) 讓 LLM 先輸出推理步驟再給最終答案的 prompting / 訓練方式、reasoning model 的基礎機制
- Reasoning Model 訓練成自然輸出長 reasoning trace 的 LLM 變體、o1 / DeepSeek-R1 / Claude thinking 為代表
- Test-Time Compute 推論時動態增加計算量換取答案品質的 paradigm、reasoning model 跟 best-of-N 的共同基底
- 3.8 Reasoning models:test-time compute paradigm Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務