Entropy

2026-05-12

Entropy（熵）的核心概念是「衡量一個機率分佈的不確定性」。Shannon entropy 公式：H(P) = -sum(P(x) × log P(x))。直覺：分佈越「平」、entropy 越大（任何結果都可能）；分佈越「尖」、entropy 越小（結果很確定）。Entropy 是 cross-entropy、KL divergence、資訊壓縮等概念的基底。

概念位置

Entropy 跟 LLM 相關概念的關係：

1Entropy(P) = -sum P log P                  ← 一個分佈自身的不確定性
2Cross-entropy(P, Q) = -sum P log Q         ← 用分佈 Q 編碼 P 的成本
3KL(P ‖ Q) = Cross-entropy(P, Q) - Entropy(P) ← 兩個分佈的差距

Entropy 在 LLM 中的具體意義：

場景	Entropy 大	Entropy 小
模型 next-token 預測分佈	「不確定下個字、可能 N 種選項」	「強烈傾向某幾個 token」
Sampling temperature 高	Entropy 高、輸出多樣	Entropy 低、輸出確定
訓練未收斂	分佈接近 uniform、entropy 接近 log(vocab)	分佈集中、entropy 降低

範例：vocab = 128K、uniform 分佈的 entropy = log(128K) ≈ 11.76（接近 12）；成熟模型在文本上的平均 entropy 約 2-3。

設計責任

Entropy 本身在 LLM 訓練 / 推論很少直接出現、但理解它能解釋一些現象：perplexity = exp(cross-entropy) 是模型平均不確定性的指數形式；temperature 控制 sampling entropy（高 T → 高 entropy → 多樣輸出）；某些評估方法（如 entropy-based uncertainty estimation）會看模型輸出分佈的 entropy 來判讀「模型有多確定」。

#llm #knowledge-cards #math #information-theory