"Transformer"
- Positional Encoding
把 token 位置資訊注入 Transformer 的機制,讓 attention 能分辨順序與距離
- Residual Stream
Transformer block 之間持續傳遞與累積資訊的 hidden state 通道,常用於架構與 mechanistic interpretability 討論
- Attention
Transformer 內部讓每個 token 對其他 token 加權平均的核心機制、形成 KV cache 跟 context window 的計算基礎
- Causal Mask
在 self-attention 裡擋掉「未來位置」的遮罩、讓 LLM 自回歸生成在訓練時也成立
- Embedding Layer
Transformer 第一層的查表結構、把整數 token ID 轉成可運算的向量
- FFN(Feed-Forward Network)
Transformer block 內部的兩層 linear + activation、佔模型參數量的多數
- Multi-Head Attention
把 attention 切成多個 head 並行計算、讓模型能同時注意多種模式
- RoPE(Rotary Position Embedding)
用旋轉矩陣把位置資訊直接旋轉進 Q/K 向量、現代 LLM 主流的位置編碼方式
- Self-Attention
Q / K / V 都從同一個 sequence 投影出來的 attention、Transformer 的標誌性設計
- 3.3 Transformer 架構細節
Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream