Reasoning

2026-05-12 Chain-of-Thought（CoT）讓 LLM 先輸出推理步驟再給最終答案的 prompting / 訓練方式、reasoning model 的基礎機制
2026-05-12 Reasoning Model 訓練成自然輸出長 reasoning trace 的 LLM 變體、o1 / DeepSeek-R1 / Claude thinking 為代表
2026-05-12 Test-Time Compute 推論時動態增加計算量換取答案品質的 paradigm、reasoning model 跟 best-of-N 的共同基底
2026-05-12 3.8 Reasoning models：test-time compute paradigm Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務