"Tokenization"
- Unigram Tokenizer
以機率模型選擇子詞切分的 tokenizer 演算法,常見於 SentencePiece 的 unigram 模式
- WordPiece
以 likelihood improvement 選擇子詞合併的 tokenizer 演算法,BERT 系列代表性使用
- BPE(Byte-Pair Encoding)
用「最常一起出現的字元對」合併建詞彙表的 tokenization 演算法、GPT / Llama 等主流
- SentencePiece
Google 開源的多語言 tokenization 框架、支援 BPE 跟 unigram 演算法、處理空白統一
- Special Tokens
在 vocab 中保留給特殊用途的 token:sequence 邊界、角色標記、padding、tool call 等
- Vocabulary Size
tokenizer 詞彙表的 token 總數、影響 embedding 大小、tokenization 粒度、多語言友善度
- 3.6 Tokenization:BPE、SentencePiece、Tiktoken
把文字切成 token 的算法:為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響
- 3.7 跨語言場景的 tokenizer 與訓練分佈原理
為什麼模型對不同語言表現不一致:tokenizer + 訓練資料分佈雙因素、語言選擇取捨