"Aws"
- 有 SSH 但沒有 IaC 的雲端環境接管
接手一個全手動建立的雲端環境時,怎麼盤點資源、推導依賴關係、收斂 credential、驗證備份、建立變更紀律,以及什麼時候該開始導入 IaC
- AWS 2021 US-EAST-1 Control Plane Degradation
2021-12-07 AWS us-east-1 控制面退化案例:內部網路壅塞、API 錯誤率升高、跨服務依賴連鎖與通訊節奏調整。
- AWS:Control Plane 事故的責任邊界與通訊節奏樣式(2023)
以 AWS 2023 年公開事件樣式為主,整理 control plane 退化時如何建立責任邊界、決策紀錄與對外更新節奏。
- 拿到雲端帳號的第一天
被指派 infra 工作、拿到 AWS 或 GCP 帳號、不確定該先做什麼時讀 — 第一小時安全底線、帳號現況判讀、後續學習路線分流
- 9.C4 DraftKings:Aurora 撐 100 萬 ops/min 的體育博彩金融帳本
DraftKings 用 Aurora MySQL 跑體育博彩金融帳本、Super Bowl 流量 +50% 不影響延遲
- 9.C5 Amazon Ads:DynamoDB 9000 萬 reads/sec 的廣告事件量測
Amazon Ads 在 DynamoDB 上跑 9000 萬 reads/sec + 500 萬 writes/sec、99.999% 可用性的廣告事件量測
- 9.C6 Tinder:ElastiCache for Valkey 撐 4700 萬月活的配對引擎
Tinder 用 Amazon ElastiCache for Valkey 提供配對引擎所需的次毫秒延遲快取層
- 9.C7 Lyft:100+ 微服務在 8 倍峰值下的 Auto Scaling
Lyft 用 AWS Auto Scaling 跨 100+ 個微服務承載 8 倍峰值流量、跨 200+ 城市
- 9.C12 Riot Games:246 個 EKS cluster 的多遊戲多地區治理
Riot Games 從 Mesos 遷移到 EKS、用 246 個 cluster 跨遊戲跨地區治理、年省 1000 萬美金
- 9.C13 Disney+ Hotstar:IPL 板球決賽 1860 萬人同時直播
Hotstar 在 IPL 板球決賽創下 1860 萬同時觀看的全球直播紀錄、CDN 與全球邊緣容量極限
- 9.C14 Standard Chartered:受監管銀行的 Aurora 4000 TPS 容量提升
Standard Chartered 銀行遷移到 Aurora 後吞吐量提升 10 倍至 4000 TPS、跨 7 個受監管市場
- 9.C15 拓元 Tixcraft:售票搶購的瞬間爆量架構
拓元用 DynamoDB 當寫入緩衝 + 傳統伺服器當慢速消費者、承受 100K+ 同時選位 + 30 秒從 6 台擴到 800 台
- 9.C16 SeatGeek:DynamoDB + Lambda 打造的虛擬等候室
SeatGeek 用 DynamoDB 4 張表 + Lambda Bouncer 實作 flash-sale 限流排隊機制、取代第三方 waiting room 服務
- 9.C17 BookMyShow:印度年售 2 億張票的資料架構現代化
BookMyShow 從 15 年自建 analytics 遷移到 AWS modern data architecture、4 個月完成、分析成本下降 80%
- 9.C18 Zoom:COVID 期間從 1000 萬到 3 億 DAU 的 30 倍突發
Zoom 在 2020 年 COVID 爆發時、日活從 1000 萬衝到 3 億、用 DynamoDB 撐住會議後端
- 9.C19 Capcom:Resident Evil / Monster Hunter 在 DynamoDB + EKS 上的遊戲後端
Capcom 把 Resident Evil、Street Fighter、Monster Hunter 遊戲後端跑在 DynamoDB + EKS、單一秒位數延遲、營運成本降 30%
- 9.C20 Zomato:從 TiDB 遷移到 DynamoDB、吞吐 4 倍、延遲降 90%、成本減 50%
Zomato 帳單系統從 TiDB 遷移到 DynamoDB、吞吐 2K→8K RPM、延遲降 90%、成本減 50%
- 9.C23 Netflix:把關聯式 DB 統一到 Aurora、效能 +75%、成本 -28%
Netflix 把多套關聯式 DB 統一到 Aurora、效能提升 75%、成本下降 28%、串流數十億小時
- 9.C24 Genesys:用 DynamoDB 在 15 region 跑出 99.999% 可用性
Genesys 客服平台用 DynamoDB 為預設資料層、跨 15 主 region + 5 衛星 region、達成 12 個月 99.999% 可用性
- 9.C25 Tubi:從 ScyllaDB 遷到 ElastiCache、ML feature store 達 sub-10ms p99
Tubi 把 ML 推薦的 feature store 從 ScyllaDB 遷到 ElastiCache for Redis、99 百分位延遲降到 10ms 以下
- 9.C26 PayPay:行動支付每日 3 億訊息的 DynamoDB 後端
日本最大行動支付 PayPay 每日 3 億訊息、用 DynamoDB 處理通知與訊息功能、支撐次秒級反應
- 9.C27 Disney+:DynamoDB 撐每日數十億動作的觀看歷史
Disney+ 用 DynamoDB 撐每日數十億動作的觀看歷史、watchlist、播放進度等串流 metadata
- 9.C28 FanDuel:體育直播 + 投注的雙重峰值
FanDuel 3.5M MAU、Super Bowl 期間擴容 5-10 倍、用 AWS Local Zones + Wavelength + Outposts 處理 20+ 州的雙重峰值
- 9.C29 NTT DOCOMO Lemino:3 個月達 500 萬 MAU 的串流後端
Lemino 用 DynamoDB + AWS Media Services 撐 30 channels live + 5M MAU、工程工時下降 90%
- 9.C36 Coinbase:MongoDB 撐 Ruby 單體 + 1.5M reads/sec identity 服務
Coinbase 以 MongoDB 為主資料層、自建 mongobetween connection proxy、users 服務在加密貨幣 surge 時撐 1.5M reads/sec
- 9.C38 Toyota Connected:MongoDB Atlas 撐 900 萬車輛 telematics、月 180 億 transaction
Toyota Connected 用 MongoDB Atlas 撐 Safety Connect 900 萬車、月 180 億 transaction、緊急訊號 3 秒內到 agent
- 9.C39 DoorDash:Aurora Postgres 寫入瓶頸 → CockroachDB 多主寫入
DoorDash 從 Aurora Postgres 遷到 CockroachDB、解 1.6 M QPS 單主寫入瓶頸、外送平台爆量壓力下重做 OLTP 拓樸
- 9.C40 Netflix:380+ CockroachDB cluster 的 multi-active 拓樸艦隊
Netflix 把 Cassandra 不夠用的 transactional workload 移到 CockroachDB、380+ cluster / 60+ 跨 region、含 Open Connect、studio cloud drive、gaming control plane
- 9.C41 Hard Rock Digital:CockroachDB on AWS Outposts、Wire Act 合規 + 跨州單一邏輯 DB
Hard Rock Digital 用 CockroachDB 跨 AWS Outposts + US-East-1、Wire Act 強制資料留州、單一邏輯 DB 解多州 sportsbook、100 node 32 vCPU 撐 Super Bowl