Tokenization

2026-05-14 Unigram Tokenizer 以機率模型選擇子詞切分的 tokenizer 演算法，常見於 SentencePiece 的 unigram 模式
2026-05-14 WordPiece 以 likelihood improvement 選擇子詞合併的 tokenizer 演算法，BERT 系列代表性使用
2026-05-12 BPE（Byte-Pair Encoding）用「最常一起出現的字元對」合併建詞彙表的 tokenization 演算法、GPT / Llama 等主流
2026-05-12 SentencePiece Google 開源的多語言 tokenization 框架、支援 BPE 跟 unigram 演算法、處理空白統一
2026-05-12 Special Tokens 在 vocab 中保留給特殊用途的 token：sequence 邊界、角色標記、padding、tool call 等
2026-05-12 Vocabulary Size tokenizer 詞彙表的 token 總數、影響 embedding 大小、tokenization 粒度、多語言友善度
2026-05-11 3.6 Tokenization：BPE、SentencePiece、Tiktoken 把文字切成 token 的算法：為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響
2026-05-11 3.7 跨語言場景的 tokenizer 與訓練分佈原理為什麼模型對不同語言表現不一致：tokenizer + 訓練資料分佈雙因素、語言選擇取捨