<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Model-Family on Tarragon</title><link>https://tarrragon.github.io/blog/tags/model-family/</link><description>Recent content in Model-Family on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Tue, 12 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/model-family/index.xml" rel="self" type="application/rss+xml"/><item><title>Reasoning Model</title><link>https://tarrragon.github.io/blog/llm/knowledge-cards/reasoning-model/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/knowledge-cards/reasoning-model/</guid><description>&lt;p>Reasoning model 的核心概念是「&lt;strong>透過後訓練（多半是 RL）讓模型自然在回答前產出長 &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/chain-of-thought/" data-link-title="Chain-of-Thought（CoT）" data-link-desc="讓 LLM 先輸出推理步驟再給最終答案的 prompting / 訓練方式、reasoning model 的基礎機制">chain-of-thought&lt;/a> reasoning trace 的 LLM 變體&lt;/strong>」。代表是 OpenAI o1 / o3、DeepSeek-R1、Qwen-QwQ、Claude 3.7 Sonnet thinking 等。Reasoning model 是 2024-2026 LLM 的最大 paradigm shift、把 &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/test-time-compute/" data-link-title="Test-Time Compute" data-link-desc="推論時動態增加計算量換取答案品質的 paradigm、reasoning model 跟 best-of-N 的共同基底">test-time compute&lt;/a> 變成可訓練、可 scale 的維度。&lt;/p>
&lt;h2 id="概念位置">概念位置&lt;/h2>
&lt;p>Reasoning model 跟一般 instruction-tuned model 的差異：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>維度&lt;/th>
 &lt;th>Instruction-tuned model（如 Gemma 4 instruct）&lt;/th>
 &lt;th>Reasoning model（如 DeepSeek-R1）&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>訓練後階段&lt;/td>
 &lt;td>SFT + RLHF / DPO&lt;/td>
 &lt;td>SFT + RLHF + &lt;strong>reasoning RL&lt;/strong>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>推論行為&lt;/td>
 &lt;td>直接答（或短 CoT）&lt;/td>
 &lt;td>先生 reasoning trace（數百到數千 token）再答&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>適合任務&lt;/td>
 &lt;td>對話、寫作、簡單 coding、查詢&lt;/td>
 &lt;td>math、debug、algorithm、複雜 reasoning&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Token 消耗&lt;/td>
 &lt;td>直接生答案 token&lt;/td>
 &lt;td>reasoning trace 通常 5-50× 於最終答案&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>推論成本&lt;/td>
 &lt;td>1×&lt;/td>
 &lt;td>5-20×（依任務難度）&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Context 需求&lt;/td>
 &lt;td>一般&lt;/td>
 &lt;td>較大（要容納 reasoning trace）&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>主流 reasoning model 比較（2026/5）：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>模型&lt;/th>
 &lt;th>開源 / 商業&lt;/th>
 &lt;th>推理 trace 格式&lt;/th>
 &lt;th>本地跑可行性&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>OpenAI o1 / o3&lt;/td>
 &lt;td>商業 API&lt;/td>
 &lt;td>對使用者隱藏&lt;/td>
 &lt;td>不可&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>DeepSeek-R1（full）&lt;/td>
 &lt;td>開源&lt;/td>
 &lt;td>&lt;code>&amp;lt;think&amp;gt;...&amp;lt;/think&amp;gt;&lt;/code> 標記&lt;/td>
 &lt;td>671B 太大、本地不實際&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>DeepSeek-R1 distill&lt;/td>
 &lt;td>開源&lt;/td>
 &lt;td>同上&lt;/td>
 &lt;td>7B / 14B / 32B distill 可在 24-48GB Mac 跑&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Qwen-QwQ&lt;/td>
 &lt;td>開源&lt;/td>
 &lt;td>純文字 reasoning（無特殊 token）&lt;/td>
 &lt;td>32B 可在 64GB+ Mac 跑&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Claude 3.7 Sonnet thinking&lt;/td>
 &lt;td>商業 API&lt;/td>
 &lt;td>extended thinking field&lt;/td>
 &lt;td>不可&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Gemini 2.5 Flash thinking&lt;/td>
 &lt;td>商業 API&lt;/td>
 &lt;td>thinking field&lt;/td>
 &lt;td>不可&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="設計責任">設計責任&lt;/h2>
&lt;p>讀 model card / paper 看到「reasoning」「thinking」「test-time compute」「R1-style」就是這個 family。寫 code 場景的判讀：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>本地用 distill 版本是合理起點&lt;/strong>：DeepSeek-R1-Distill-Qwen-32B、QwQ-32B 等是「正常 32B 模型 + reasoning 後訓練」的產物、跑得起來&lt;/li>
&lt;li>&lt;strong>適合的任務&lt;/strong>：debug 複雜 bug、算 algorithm complexity、設計 multi-step refactor、解 leetcode hard&lt;/li>
&lt;li>&lt;strong>不適合的任務&lt;/strong>：autocomplete（reasoning trace 拉長 TTFT、體感變慢）、簡單 docstring 補完、純文字翻譯&lt;/li>
&lt;li>&lt;strong>混用策略&lt;/strong>：日常用 &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/instruction-tuned/" data-link-title="Instruction-Tuned Model" data-link-desc="經過指令微調的模型：會跟著 prompt 走、回答使用者問題">instruction-tuned model&lt;/a>（如 Gemma 4 31B、Qwen3-Coder）+ 複雜任務切到本地 reasoning model（如 QwQ-32B）+ 真正困難任務切雲端 o1 / R1 full&lt;/li>
&lt;li>&lt;strong>記憶體預算&lt;/strong>：reasoning model 本身大小跟對應 instruct model 相當、但要預留更大 &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/kv-cache/" data-link-title="KV Cache" data-link-desc="已處理 token 的 attention 中間結果暫存：避免重算、加速後續生成">KV cache&lt;/a> 給長 reasoning trace（context 通常開 32K+）&lt;/li>
&lt;/ol></description><content:encoded><![CDATA[<p>Reasoning model 的核心概念是「<strong>透過後訓練（多半是 RL）讓模型自然在回答前產出長 <a href="/blog/llm/knowledge-cards/chain-of-thought/" data-link-title="Chain-of-Thought（CoT）" data-link-desc="讓 LLM 先輸出推理步驟再給最終答案的 prompting / 訓練方式、reasoning model 的基礎機制">chain-of-thought</a> reasoning trace 的 LLM 變體</strong>」。代表是 OpenAI o1 / o3、DeepSeek-R1、Qwen-QwQ、Claude 3.7 Sonnet thinking 等。Reasoning model 是 2024-2026 LLM 的最大 paradigm shift、把 <a href="/blog/llm/knowledge-cards/test-time-compute/" data-link-title="Test-Time Compute" data-link-desc="推論時動態增加計算量換取答案品質的 paradigm、reasoning model 跟 best-of-N 的共同基底">test-time compute</a> 變成可訓練、可 scale 的維度。</p>
<h2 id="概念位置">概念位置</h2>
<p>Reasoning model 跟一般 instruction-tuned model 的差異：</p>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>Instruction-tuned model（如 Gemma 4 instruct）</th>
          <th>Reasoning model（如 DeepSeek-R1）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>訓練後階段</td>
          <td>SFT + RLHF / DPO</td>
          <td>SFT + RLHF + <strong>reasoning RL</strong></td>
      </tr>
      <tr>
          <td>推論行為</td>
          <td>直接答（或短 CoT）</td>
          <td>先生 reasoning trace（數百到數千 token）再答</td>
      </tr>
      <tr>
          <td>適合任務</td>
          <td>對話、寫作、簡單 coding、查詢</td>
          <td>math、debug、algorithm、複雜 reasoning</td>
      </tr>
      <tr>
          <td>Token 消耗</td>
          <td>直接生答案 token</td>
          <td>reasoning trace 通常 5-50× 於最終答案</td>
      </tr>
      <tr>
          <td>推論成本</td>
          <td>1×</td>
          <td>5-20×（依任務難度）</td>
      </tr>
      <tr>
          <td>Context 需求</td>
          <td>一般</td>
          <td>較大（要容納 reasoning trace）</td>
      </tr>
  </tbody>
</table>
<p>主流 reasoning model 比較（2026/5）：</p>
<table>
  <thead>
      <tr>
          <th>模型</th>
          <th>開源 / 商業</th>
          <th>推理 trace 格式</th>
          <th>本地跑可行性</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>OpenAI o1 / o3</td>
          <td>商業 API</td>
          <td>對使用者隱藏</td>
          <td>不可</td>
      </tr>
      <tr>
          <td>DeepSeek-R1（full）</td>
          <td>開源</td>
          <td><code>&lt;think&gt;...&lt;/think&gt;</code> 標記</td>
          <td>671B 太大、本地不實際</td>
      </tr>
      <tr>
          <td>DeepSeek-R1 distill</td>
          <td>開源</td>
          <td>同上</td>
          <td>7B / 14B / 32B distill 可在 24-48GB Mac 跑</td>
      </tr>
      <tr>
          <td>Qwen-QwQ</td>
          <td>開源</td>
          <td>純文字 reasoning（無特殊 token）</td>
          <td>32B 可在 64GB+ Mac 跑</td>
      </tr>
      <tr>
          <td>Claude 3.7 Sonnet thinking</td>
          <td>商業 API</td>
          <td>extended thinking field</td>
          <td>不可</td>
      </tr>
      <tr>
          <td>Gemini 2.5 Flash thinking</td>
          <td>商業 API</td>
          <td>thinking field</td>
          <td>不可</td>
      </tr>
  </tbody>
</table>
<h2 id="設計責任">設計責任</h2>
<p>讀 model card / paper 看到「reasoning」「thinking」「test-time compute」「R1-style」就是這個 family。寫 code 場景的判讀：</p>
<ol>
<li><strong>本地用 distill 版本是合理起點</strong>：DeepSeek-R1-Distill-Qwen-32B、QwQ-32B 等是「正常 32B 模型 + reasoning 後訓練」的產物、跑得起來</li>
<li><strong>適合的任務</strong>：debug 複雜 bug、算 algorithm complexity、設計 multi-step refactor、解 leetcode hard</li>
<li><strong>不適合的任務</strong>：autocomplete（reasoning trace 拉長 TTFT、體感變慢）、簡單 docstring 補完、純文字翻譯</li>
<li><strong>混用策略</strong>：日常用 <a href="/blog/llm/knowledge-cards/instruction-tuned/" data-link-title="Instruction-Tuned Model" data-link-desc="經過指令微調的模型：會跟著 prompt 走、回答使用者問題">instruction-tuned model</a>（如 Gemma 4 31B、Qwen3-Coder）+ 複雜任務切到本地 reasoning model（如 QwQ-32B）+ 真正困難任務切雲端 o1 / R1 full</li>
<li><strong>記憶體預算</strong>：reasoning model 本身大小跟對應 instruct model 相當、但要預留更大 <a href="/blog/llm/knowledge-cards/kv-cache/" data-link-title="KV Cache" data-link-desc="已處理 token 的 attention 中間結果暫存：避免重算、加速後續生成">KV cache</a> 給長 reasoning trace（context 通常開 32K+）</li>
</ol>
]]></content:encoded></item></channel></rss>