WordPiece

2026-05-14

WordPiece 的核心概念是「用語料 likelihood 改善量選擇子詞合併的 tokenization 演算法」。它跟 BPE 一樣把文字拆成 subword，但選擇 merge 的準則不同。

概念位置

WordPiece 屬於 subword tokenizer 家族，BERT 系列是代表。BPE 偏向合併高頻相鄰片段；WordPiece 偏向選擇能最大化語言模型 likelihood 的片段；SentencePiece 則是 tokenizer framework，可支援 BPE 或 unigram。

可觀察訊號與例子

看到 ##ing、##ed 這類 continuation marker，通常是 WordPiece 風格 vocabulary。它讓模型能處理未見過的詞，因為陌生詞仍可拆成已知 subword。

設計責任

比較 tokenizer 時，WordPiece 主要作為 BERT/encoder 系統的背景知識。寫 LLM 推論與本地 serving 時更常遇到 BPE、SentencePiece、vocab size 與 special tokens。

#llm #knowledge-cards #tokenization