Pre-training
Pre-training
Pre-training(預訓練)的核心概念是「在大量未標註文字上、用 next-token prediction 當目標訓練一個語言模型」。產出的權重稱為 base model、是後續 SFT / RLHF 的起點。Pre-training 是 LLM 三階段訓練流程中最貴、最耗時、最決定模型上限的階段。
概念位置
Pre-training 在 LLM 訓練 pipeline 的位置:
1[網路文字 / 書籍 / code / 論文](trillion token 級)
2 ↓ Pre-training(next-token prediction、cross-entropy loss)
3[Base model]:會接龍但不會對話
4 ↓ SFT(指令-回答對資料)
5[Instruction-tuned model]:會跟指令走
6 ↓ RLHF / DPO(人類偏好資料)
7[Aligned model]:對話風格 / 安全性對齊Pre-training 的特性:
| 維度 | 典型數字(2026 年主流大模型) |
|---|---|
| 資料量 | 數兆 token(Common Crawl、RefinedWeb、The Pile、Stack 等) |
| GPU 用量 | 數百到數萬張 H100 / B200、並行訓練 |
| 訓練時間 | 數週到數月 |
| 成本級別 | 數百萬到數億美元 |
| Loss | Cross-entropy on next-token |
| 結果 | 「會接龍」的 base model、可用 perplexity 評估 |
設計責任
理解 pre-training 後可以判讀幾件事:模型的「世界知識」絕大部分在 pre-training 時就決定了、SFT / RLHF 只是「教模型怎麼用這些知識回答」、不會大幅增加新知識;模型 cutoff date 就是 pre-training 資料的截止;想做新領域知識引入、RAG 比繼續 fine-tune 划算(pre-training 太貴、且 fine-tune 容易讓既有能力退化)。