"Cost"
- Retrieval Cost
RAG 檢索帶來的 latency、token、embedding、reranker、LLM call 與維護成本,用來判斷增強是否划算
- Prompt Cache
重複出現的 prompt prefix 在推論伺服器或 LLM 服務端被 cache、後續 query 跳過 prefill、大幅降 cost 跟 TTFT
- 成本可見性與最小可行治理節奏
用 tag 驅動的成本分攤讓帳單有人負責,以及判斷什麼治理該 day-1 就立、什麼等規模逼出來再加
- 成本判斷表
什麼時候值得寫 protocol integration test、什麼時候用 contract test 或實機測試替代 — 根據服務啟動成本和協議複雜度判斷
- ECS Fargate 成本分析與優化
Fargate 的計價模型、與 EC2 launch type 的成本交叉點、Spot 與 Savings Plans 的折扣機制、task 規格的 rightsizing 方法,以及何時該切回 EC2
- 9.7 成本邊界與 efficiency
cost per request、cost curve、降級成本、over-provisioning trade-off
- Datadog 成本治理與 Agent 配置
說明 Datadog 的計價模型、custom metrics 成本控制、Agent 部署配置與常見故障模式
- 4.C12 Cloudflare:內部觀測平台的三層能力
全球 300+ edge 節點的觀測架構,把 monitoring、analytics 與 forensics 拆成三個獨立能力層。
- AWS SQS:Visibility timeout、long polling 與 Lambda event source 的成本與失敗形狀
SQS deep article:visibility timeout 對齊 consumer 處理時間(ChangeMessageVisibility)、long vs short polling 的 cost 取捨(WaitTimeSeconds)、SQS + Lambda event source mapping(batch size / batch window / 並行 ramp-up)、DLQ + redrive policy(maxReceiveCount)、message size 與 extended client、per-request cost 模型;含 5 個 production 故障演練(VT < 處理時間 redelivery、polling 設定省成本、Lambda 部分失敗整批重投、DLQ maxReceiveCount、FIFO 吞吐上限)
- 4.C14 觀測平台成本治理:從帳單驚嚇到可預測成本
觀測帳單持續超線性成長時,用 cost attribution、cardinality budget、log tiering 跟 adaptive sampling 建立可預測成本模型。
- 4.18 Prompt caching 工程實務:cost / latency 最大槓桿
Prompt cache 怎麼運作、cache_control 設計、coding agent 跟 long-context 的 cache pattern、anti-pattern 跟 cache miss 訊號
- Aurora Serverless v2 適用判斷:ACU 自動擴縮、混合 cluster 與何時不該用
Aurora Serverless v2 不是「比較便宜的 Aurora」;本文展開 ACU 計費粒度、秒級自動擴縮機制、min/max ACU 設定、serverless 與 provisioned 同 cluster 混用,以及穩定高負載下 serverless 反而更貴的成本 crossover 邊界
- Aurora PostgreSQL I/O-Optimized Cost
Aurora PostgreSQL Standard 與 I/O-Optimized 的成本模型、I/O 壓力、workload 判斷、遷移與回退條件