"Optimization"
- Flash Attention
Attention 計算的記憶體友善實作、減少 GPU memory 讀寫、提升長 context 推論吞吐
- Prefix Cache
把多個請求共用的前綴 prompt 的 KV cache 重用、省下重複 prefill 算力的優化、production 多用戶服務的常見設計
- 8.1 並行處理實戰
將 concurrent.futures 應用於真實的 I/O 密集任務
- 案例:並行檔案檢查
使用 ThreadPoolExecutor 加速 Markdown 連結檢查
- 2.2 微積分與最佳化
從 gradient、chain rule 到 SGD / Adam:LLM 訓練如何更新數十億參數
- 8.2 效能調優實戰
測量、分析、優化的完整流程
- 案例:並行 Hook 驗證
使用 ThreadPoolExecutor 並行驗證 Hook,並實現進度報告
- 案例:記憶體優化
用 __slots__ 和 weakref 優化快取系統的記憶體使用
- 案例:正則表達式預編譯
用 re.compile 減少重複編譯開銷
- 案例:LRU 快取
用 functools.lru_cache 快取重複計算
- 案例:資料結構選擇
選擇正確的資料結構:list vs set 的查詢效能差異
- ECS Fargate 成本分析與優化
Fargate 的計價模型、與 EC2 launch type 的成本交叉點、Spot 與 Savings Plans 的折扣機制、task 規格的 rightsizing 方法,以及何時該切回 EC2