Attention

2026-05-14 Grouped-Query Attention 讓多個 query head 共用較少的 key/value head，以降低 KV cache 體積與推論記憶體壓力
2026-05-14 Positional Encoding 把 token 位置資訊注入 Transformer 的機制，讓 attention 能分辨順序與距離
2026-05-12 Flash Attention Attention 計算的記憶體友善實作、減少 GPU memory 讀寫、提升長 context 推論吞吐
2026-05-11 3.2 Attention 機制 Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算