"Attention"
- Grouped-Query Attention 讓多個 query head 共用較少的 key/value head,以降低 KV cache 體積與推論記憶體壓力
- Positional Encoding 把 token 位置資訊注入 Transformer 的機制,讓 attention 能分辨順序與距離
- Flash Attention Attention 計算的記憶體友善實作、減少 GPU memory 讀寫、提升長 context 推論吞吐
- 3.2 Attention 機制 Query / Key / Value、scaled dot-product attention、multi-head attention:Transformer 的核心運算