<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Information-Theory on Tarragon</title><link>https://tarrragon.github.io/blog/tags/information-theory/</link><description>Recent content in Information-Theory on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Tue, 12 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/information-theory/index.xml" rel="self" type="application/rss+xml"/><item><title>Entropy</title><link>https://tarrragon.github.io/blog/llm/knowledge-cards/entropy/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/knowledge-cards/entropy/</guid><description>&lt;p>Entropy（熵）的核心概念是「衡量一個機率分佈的不確定性」。Shannon entropy 公式：&lt;code>H(P) = -sum(P(x) × log P(x))&lt;/code>。直覺：分佈越「平」、entropy 越大（任何結果都可能）；分佈越「尖」、entropy 越小（結果很確定）。Entropy 是 &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/cross-entropy/" data-link-title="Cross-Entropy" data-link-desc="衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss">cross-entropy&lt;/a>、&lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/kl-divergence/" data-link-title="KL Divergence" data-link-desc="衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束">KL divergence&lt;/a>、資訊壓縮等概念的基底。&lt;/p>
&lt;h2 id="概念位置">概念位置&lt;/h2>
&lt;p>Entropy 跟 LLM 相關概念的關係：&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-text" data-lang="text">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl">Entropy(P) = -sum P log P ← 一個分佈自身的不確定性
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">2&lt;/span>&lt;span class="cl">Cross-entropy(P, Q) = -sum P log Q ← 用分佈 Q 編碼 P 的成本
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">3&lt;/span>&lt;span class="cl">KL(P ‖ Q) = Cross-entropy(P, Q) - Entropy(P) ← 兩個分佈的差距&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>Entropy 在 LLM 中的具體意義：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>場景&lt;/th>
 &lt;th>Entropy 大&lt;/th>
 &lt;th>Entropy 小&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>模型 next-token 預測分佈&lt;/td>
 &lt;td>「不確定下個字、可能 N 種選項」&lt;/td>
 &lt;td>「強烈傾向某幾個 token」&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Sampling temperature 高&lt;/td>
 &lt;td>Entropy 高、輸出多樣&lt;/td>
 &lt;td>Entropy 低、輸出確定&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>訓練未收斂&lt;/td>
 &lt;td>分佈接近 uniform、entropy 接近 log(vocab)&lt;/td>
 &lt;td>分佈集中、entropy 降低&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>範例：vocab = 128K、uniform 分佈的 entropy = log(128K) ≈ 11.76（接近 12）；成熟模型在文本上的平均 entropy 約 2-3。&lt;/p>
&lt;h2 id="設計責任">設計責任&lt;/h2>
&lt;p>Entropy 本身在 LLM 訓練 / 推論很少直接出現、但理解它能解釋一些現象：&lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/perplexity/" data-link-title="Perplexity" data-link-desc="cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」">perplexity&lt;/a> = exp(cross-entropy) 是模型平均不確定性的指數形式；temperature 控制 sampling entropy（高 T → 高 entropy → 多樣輸出）；某些評估方法（如 entropy-based uncertainty estimation）會看模型輸出分佈的 entropy 來判讀「模型有多確定」。&lt;/p></description><content:encoded><![CDATA[<p>Entropy（熵）的核心概念是「衡量一個機率分佈的不確定性」。Shannon entropy 公式：<code>H(P) = -sum(P(x) × log P(x))</code>。直覺：分佈越「平」、entropy 越大（任何結果都可能）；分佈越「尖」、entropy 越小（結果很確定）。Entropy 是 <a href="/blog/llm/knowledge-cards/cross-entropy/" data-link-title="Cross-Entropy" data-link-desc="衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss">cross-entropy</a>、<a href="/blog/llm/knowledge-cards/kl-divergence/" data-link-title="KL Divergence" data-link-desc="衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束">KL divergence</a>、資訊壓縮等概念的基底。</p>
<h2 id="概念位置">概念位置</h2>
<p>Entropy 跟 LLM 相關概念的關係：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">Entropy(P) = -sum P log P                  ← 一個分佈自身的不確定性
</span></span><span class="line"><span class="ln">2</span><span class="cl">Cross-entropy(P, Q) = -sum P log Q         ← 用分佈 Q 編碼 P 的成本
</span></span><span class="line"><span class="ln">3</span><span class="cl">KL(P ‖ Q) = Cross-entropy(P, Q) - Entropy(P) ← 兩個分佈的差距</span></span></code></pre></div><p>Entropy 在 LLM 中的具體意義：</p>
<table>
  <thead>
      <tr>
          <th>場景</th>
          <th>Entropy 大</th>
          <th>Entropy 小</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>模型 next-token 預測分佈</td>
          <td>「不確定下個字、可能 N 種選項」</td>
          <td>「強烈傾向某幾個 token」</td>
      </tr>
      <tr>
          <td>Sampling temperature 高</td>
          <td>Entropy 高、輸出多樣</td>
          <td>Entropy 低、輸出確定</td>
      </tr>
      <tr>
          <td>訓練未收斂</td>
          <td>分佈接近 uniform、entropy 接近 log(vocab)</td>
          <td>分佈集中、entropy 降低</td>
      </tr>
  </tbody>
</table>
<p>範例：vocab = 128K、uniform 分佈的 entropy = log(128K) ≈ 11.76（接近 12）；成熟模型在文本上的平均 entropy 約 2-3。</p>
<h2 id="設計責任">設計責任</h2>
<p>Entropy 本身在 LLM 訓練 / 推論很少直接出現、但理解它能解釋一些現象：<a href="/blog/llm/knowledge-cards/perplexity/" data-link-title="Perplexity" data-link-desc="cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」">perplexity</a> = exp(cross-entropy) 是模型平均不確定性的指數形式；temperature 控制 sampling entropy（高 T → 高 entropy → 多樣輸出）；某些評估方法（如 entropy-based uncertainty estimation）會看模型輸出分佈的 entropy 來判讀「模型有多確定」。</p>
]]></content:encoded></item></channel></rss>