Transformer

2026-05-14 Positional Encoding 把 token 位置資訊注入 Transformer 的機制，讓 attention 能分辨順序與距離
2026-05-14 Residual Stream Transformer block 之間持續傳遞與累積資訊的 hidden state 通道，常用於架構與 mechanistic interpretability 討論
2026-05-12 Attention Transformer 內部讓每個 token 對其他 token 加權平均的核心機制、形成 KV cache 跟 context window 的計算基礎
2026-05-12 Causal Mask 在 self-attention 裡擋掉「未來位置」的遮罩、讓 LLM 自回歸生成在訓練時也成立
2026-05-12 Embedding Layer Transformer 第一層的查表結構、把整數 token ID 轉成可運算的向量
2026-05-12 FFN（Feed-Forward Network） Transformer block 內部的兩層 linear + activation、佔模型參數量的多數
2026-05-12 Multi-Head Attention 把 attention 切成多個 head 並行計算、讓模型能同時注意多種模式
2026-05-12 RoPE（Rotary Position Embedding）用旋轉矩陣把位置資訊直接旋轉進 Q/K 向量、現代 LLM 主流的位置編碼方式
2026-05-12 Self-Attention Q / K / V 都從同一個 sequence 投影出來的 attention、Transformer 的標誌性設計
2026-05-11 3.3 Transformer 架構細節 Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream