Valkey on Tarragon

DragonflyDB → Redis / Valkey：回退到標準生態的遷移路徑

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 DragonflyDB（source）跟 Redis / Valkey（target）。反向路徑見 Redis → DragonflyDB。跑 6 維 diff dimension audit 後判定為 Type B drop-in（RESP 協定相容），但 HA 和持久化有差異需要處理。

為什麼從 DragonflyDB 遷回

DragonflyDB 遷回 Redis/Valkey 的 driver 跟正向遷移互為鏡像：

Redis Modules 需求：業務開始需要 RedisJSON、RediSearch 或 RedisTimeSeries，DragonflyDB 不支援 Redis Modules 生態
Cluster mode 需求：DragonflyDB 設計為單機 scale-up，當資料量超過單機記憶體上限（數 TB）或需要跨 node sharding 時，Redis Cluster 或 Valkey Cluster 是成熟選擇
Sentinel / HA 生態：DragonflyDB 的 HA 用自家 replication，不支援 Sentinel。若團隊已有 Sentinel 或 Operator 基礎設施，回到 Redis/Valkey 整合成本更低
BSL 授權疑慮：DragonflyDB 是 BSL 1.1（4 年後轉 Apache 2.0），部分組織偏好 BSD（Valkey）或即使是 RSALv2（Redis）的已知授權

6 維 diff dimension audit

維度	評估	等級
Schema / API	RESP 相容、data types 一致	Low
Operational model	DragonflyDB replication → Sentinel/Cluster；snapshotting → RDB+AOF	Medium
Abstraction / paradigm	相同（key-value cache）	Low
Number of components	DragonflyDB 1-2 nodes → Redis primary + replica + Sentinel（或 Cluster 6 nodes）	Medium
Application change	endpoint 換、client config 微調（無 API 差異）	Low
Data topology	DragonflyDB snapshot → Redis RDB 相容	Low

全域 Low-Medium → Type B drop-in，工作重心在 HA 架構切換和持久化模式對齊。

相容性確認

DragonflyDB → Redis 的相容方向跟 Redis → DragonflyDB 相反 — Redis 是 superset，回到 Redis 不會有功能缺失。但有幾個操作面差異需要處理：

DragonflyDB 行為	Redis 行為	處理方式
Multi-threaded 吞吐量	單主線程（I/O threads 輔助）	回到 Redis 後 throughput 下降是預期行為；若單機不夠需要 Cluster 分片
Fork-less snapshot	BGSAVE fork + COW	關注 persistence fork latency，大 dataset 的 fork 會造成延遲 spike
自家 replication	Redis replication + Sentinel 或 Cluster	需要重建 HA 架構，見下方階段二
無 AOF	AOF + RDB 混合持久化	依需求決定是否開 AOF；純 cache 場景可只用 RDB
無 Cluster mode	Redis Cluster 或 Valkey Cluster	資料量大時需要規劃 sharding

階段一：資料匯出

DragonflyDB 支援 SAVE / BGSAVE 產生 RDB 格式 snapshot，跟 Redis RDB 相容。

1# 在 DragonflyDB 觸發 snapshot
2redis-cli -h dragonfly-host BGSAVE
3
4# 等 BGSAVE 完成
5redis-cli -h dragonfly-host LASTSAVE
6
7# 複製 snapshot 檔案到 Redis 資料目錄
8cp /dragonfly-data/dump.rdb /redis-data/dump.rdb

RDB 載入驗證：

1# 啟動 Redis 載入 RDB
2redis-server --dbfilename dump.rdb --dir /redis-data
3
4# 驗證 key count
5redis-cli DBSIZE

若 DragonflyDB 跑的是較新版本產出的 RDB，先在測試環境驗證 Redis 能正常載入。DragonflyDB 的 RDB 基於 Redis 6.x 格式，Redis 7.x 和 Valkey 8.x 向下相容無問題。

階段二：HA 架構重建

DragonflyDB 回到 Redis/Valkey 後，HA 需要從 DragonflyDB replication 切換到 Sentinel 或 Cluster。

Sentinel 路徑（適合非分片場景）

1 primary + N replica + 3 Sentinel nodes。配置見 Sentinel HA Failover。

Cluster 路徑（適合需要分片的場景）

最小 3 primary + 3 replica。配置見 Redis Cluster Resharding。

選擇依據：資料量 < 單機記憶體的 70% 用 Sentinel，需要水平擴展用 Cluster。

階段三：Client 切換

Application 的 Redis client 不需要改 API — DragonflyDB 跟 Redis 用同一套 RESP 協定。需要改的只有：

Endpoint：從 DragonflyDB host:port 改為 Redis primary（或 Sentinel/Cluster endpoint）
認證：若 DragonflyDB 用 requirepass，Redis 同參數；若要升級到 ACL 趁此機會配置
Sentinel/Cluster 配置：client library 需要啟用 Sentinel discovery 或 Cluster mode

1# 切換前：直連 DragonflyDB
2r = redis.Redis(host="dragonfly-host", port=6379, password="secret")
3
4# 切換後：Sentinel 模式
5sentinel = redis.Sentinel([("sentinel-1", 26379), ("sentinel-2", 26379), ("sentinel-3", 26379)])
6r = sentinel.master_for("mymaster", password="secret")

階段四：效能 baseline 與回退

效能預期

回到 Redis 後，單機 throughput 會低於 DragonflyDB（Redis 單主線程 vs DragonflyDB 多線程）。建立 baseline 時要跟 Redis 的歷史數據比，不是跟 DragonflyDB 比。

指標	預期變化	應對
吞吐量	下降（單線程限制）	Cluster 分片或 read replica 分散
Latency p99	BGSAVE 期間可能有 spike	調整 BGSAVE 排程避開高峰
記憶體使用	上升 ~30%（Redis 記憶體效率較低）	預先調整 maxmemory 和 eviction policy

回退路徑

回退到 DragonflyDB：把 Redis 的 RDB dump 回 DragonflyDB 載入，endpoint 改回。Cache 資料可重建，即使 RDB 不搬，DragonflyDB 重啟後 cache miss 回源到 DB 即可。

DragonflyDB 在遷移完成後保留 7 天再下線。

交接路由

Source vendor：DragonflyDB
Target vendor：Redis / Valkey
反向路徑：Redis → DragonflyDB
HA 重建：Sentinel HA Failover、Cluster Resharding
持久化注意：Persistence Fork Latency

KeyDB → Redis / Valkey：從多線程 fork 回歸主線的遷移路徑

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 KeyDB（source）跟 Redis / Valkey（target）。跑 6 維 diff dimension audit 後判定為 Type B drop-in（KeyDB 是 Redis fork、RESP 相容、RDB/AOF 相容），但 active-active replication 跟 multi-threading 特性回退需要額外處理。

為什麼從 KeyDB 遷回

KeyDB 是 Snap 維護的 Redis fork，主要差異化在多線程和 active-active replication。遷回的 driver：

維護活躍度疑慮：KeyDB 的 release cadence 跟 Redis/Valkey 主線比較慢，部分組織擔心長期維護與安全 patch 的及時性
Valkey 生態收斂：Valkey 在 Linux Foundation 治理下快速演進（8.x 多線程改進），KeyDB 的多線程優勢逐漸縮小
Active-active 不再需要：業務不再需要跨 region active-active、或改用 application 層處理衝突解析
社群與工具生態：Redis/Valkey 的 client library、monitoring exporter、Operator 支援度更廣

6 維 diff dimension audit

維度	評估	等級
Schema / API	完全相容（fork 自 Redis 6.x）	Low
Operational model	active-active → Sentinel/Cluster；multi-thread config 移除	Medium
Abstraction / paradigm	相同	Low
Number of components	相近（1 primary + N replica + HA）	Low
Application change	endpoint 換、client config 微調	Low
Data topology	RDB/AOF 完全相容	Low

Type B drop-in，工作重心在 active-active replication 拆除和效能 baseline 對齊。

KeyDB 特有功能的處理

KeyDB 特有功能	Redis/Valkey 對應	遷移處理
Multi-threading（`server-threads`）	Redis I/O threads / Valkey 8 async I/O	回到 Redis 後吞吐量下降是預期，需要 benchmark 建立新 baseline
Active-active replication	無原生等價。Redis 需要 application 層解衝突或用 CRDTs（社群方案）	遷移前確認業務是否仍需 multi-master。不需要則直接切 Sentinel/Cluster
FLASH storage（`storage-provider flash`）	無原生等價。Redis 純記憶體	遷移前把 FLASH 資料回收到記憶體，或接受遷移後記憶體需求上升。調整 `maxmemory`
Subkey expires	Redis 無 subkey expire（只有 top-level key TTL）	檢查 application 是否依賴 subkey expire；若有需要改寫為 top-level key 或用 sorted set 模擬
`EXPIREMEMBER` 命令	Redis 無此命令	grep application code 確認未使用；若有需改寫

FLASH storage 的處理取決於冷資料比例。如果多數資料在 FLASH 上（用 OBJECT FREQ 確認），遷移後的 Redis 記憶體需求會大幅上升 — 要提前計算純記憶體所需容量，調整 instance 規格或改用更積極的 eviction policy。Subkey expires 和 EXPIREMEMBER 的影響範圍通常較小，但一旦 application 依賴就需要重構資料結構（用 top-level key + TTL 或 sorted set 模擬過期）。

Active-active 拆除

若 KeyDB 的 active-active replication 正在使用，遷移前需要先收斂為單主寫入：

選定一個 region 的 KeyDB 為 primary，其他 region 停止寫入
等資料同步完成（replica 追上 primary offset）
從 primary 做 RDB export
用 RDB 建立 Redis/Valkey instance
各 region 的 application 切到新的 Redis/Valkey（Sentinel 或 Cluster）

資料搬遷

KeyDB 的 RDB 和 AOF 與 Redis 格式相容，搬遷流程跟 DragonflyDB 回退類似：

1# KeyDB 端觸發 BGSAVE
2redis-cli -h keydb-host BGSAVE
3
4# 複製 RDB 到 Redis/Valkey 資料目錄
5scp keydb-host:/data/dump.rdb redis-host:/data/dump.rdb
6
7# Redis/Valkey 載入
8redis-server --dbfilename dump.rdb --dir /data

如果使用了 FLASH storage，RDB 只包含記憶體中的資料。FLASH 上的冷資料需要先用 OBJECT FREQ 確認存取頻率，決定是要 warm up 到記憶體再 export，還是接受遷移後冷資料 cache miss 回源。

效能差異預期

指標	KeyDB → Redis 變化	應對
吞吐量	下降（KeyDB multi-thread → Redis single-thread）	評估是否需要 Cluster 分片補償。Valkey 8 的 async I/O 可部分彌補
記憶體	上升（若使用了 FLASH storage 被移除）	提前計算純記憶體所需容量，調整 instance 規格
Latency p99	BGSAVE fork spike 可能出現	KeyDB 的多線程降低了 fork 影響，回到 Redis 需要關注 persistence fork latency
Active-active latency	不適用（已拆除）	N/A

回退路徑

Cache 資料可重建，回退方式：

Application endpoint 改回 KeyDB
若 KeyDB 已下線，重啟 KeyDB 載入 Redis 的 RDB（格式相容）
Cache miss 回源到 DB 自然 warm up

KeyDB 保留 7 天再下線。

交接路由

Source vendor：KeyDB、KeyDB Active-Active Replication
Target vendor：Redis / Valkey
HA 重建：Sentinel HA Failover
效能參考：Persistence Fork Latency、Connection Pipeline Latency

Redis → Valkey：同一份程式碼、不同授權的 drop-in 遷移

Tue, 16 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 Redis（source）跟 Valkey（target）。跑 6 維 diff dimension audit 後判定為 Type B drop-in（全維度 Low），結構走 6-section + 相容性 audit 前置。實機驗證於 valkey/valkey:8（valkey_version 8.1.8、redis_version 7.2.4）、最後檢查日 2026-06-16。

同一份程式碼、不同授權

多數 migration 的工作量在「source 跟 target 不一樣」——schema 要翻譯、API 要改、資料要轉。Redis → Valkey 幾乎沒有這個問題：Valkey 是 2024 年從 Redis 7.2.4 直接 fork 出來的，那一刻它跟 Redis 是 bit-for-bit 同一份程式碼。RDB 與 AOF 檔案格式相同（可以直接把 Redis 的資料目錄拷給 Valkey 載入）、RESP 協定相同、所有 Redis client library 不改一行就能連。技術上，這是 cache 領域最容易的遷移。

那為什麼要寫一篇 playbook？因為這個遷移的工作量不在資料層，在兩個別的地方。第一是授權——Redis 2024 改成 RSALv2 / SSPL（非 OSI 認可），Valkey 是 BSD 3-clause（OSI、Linux Foundation 治理），這個遷移的整個 driver 是授權合規，而合規驗證有它自己的流程。第二是fork 後的分歧——fork 那一刻兩者相同，但之後各自演進：Redis 加了 7.4+ 的新功能、Valkey 加了自己的（如 8.x 多執行緒），用到 fork 之後 Redis 新功能的部署會有相容缺口。

INFO server 上看得到這個「同源但分歧」的事實：

1valkey-cli INFO server | grep -E "redis_version|valkey_version"
2# redis_version:7.2.4    ← fork 點、client 以此判斷相容性（裝成 Redis 7.2.4）
3# valkey_version:8.1.8   ← Valkey 自己的演進線

redis_version:7.2.4 是相容性的保證（client 看到就以 Redis 7.2.4 行為運作）；valkey_version 是分歧的證據。這篇 playbook 處理的就是「資料層幾乎零工作、工作在授權與分歧盤點」的 drop-in 遷移。

6 維 diff dimension audit：為什麼是 Type B

跑 diff dimension audit，Redis → Valkey 全維度 Low：

維度	評估	等級
Schema / API	同 Redis 7.2.4（fork 同源）、RESP 協定一致	Low
Operational model	同 redis.conf、同監控指標、同 CLI 命令	Low
Abstraction / paradigm	完全相同（同一份 code base 演進）	Low
Number of components	1 → 1（單服務換單服務）	Low
Application change	零（所有 Redis client library 直接相容）	Low
Data topology	RDB / AOF 檔案相容、可直接拷資料目錄	Low

全 Low → Type B drop-in（6-section + 相容性 audit 前置、週期 1-4 週）。跟同模組的 Redis → DragonflyDB 對照：DragonflyDB 是 C++ 重寫（drop-in 但 Lua / encoding / module 有差異），Valkey 是 fork（同源、連 RDB 檔都相容）——Valkey 的相容度比 DragonflyDB 更高，是 Type B 裡最純粹的一端。

這個遷移的特殊之處是 driver 在資料層之外：它是授權 / 合規驅動。依 migration 方法論的漏類處理，政策 / 合規驅動的遷移資料層仍走 Type B，但 audit 重點多一塊授權驗證與證據收集。

相容性 audit：cutover 前要確認的清單

Valkey 號稱 100% 相容 Redis 7.2.4，但「100%」的邊界在 fork 之後的分歧。Pre-migration 必跑的 audit：

Redis feature	Valkey 相容程度	Action
Core data types / commands / RESP	完全相容（fork 自 7.2.4）	無需處理
RDB / AOF 檔案格式	完全相容（可直接拷資料目錄）	無需轉檔
Eviction / persistence / pub-sub	完全相容	無需處理
Client libraries	完全相容（透過 redis_version 協商）	無需改 code
Cluster / Sentinel	完全相容（同 Redis 模型）	無需處理
Redis 7.4+ 新功能（fork 後新增）	Valkey 不一定跟進	盤點是否用到、確認 Valkey 對應
Redis Stack 商業 module（JSON/Search）	不相容（Valkey 有 valkey-search / valkey-bloom）	盤點 module 使用、確認替代或改寫
RedisInsight 等 Redis Inc 監控工具	部分 vendor-specific 命令缺	改通用工具（valkey-cli / redis_exporter）

audit 的關鍵 output：兩份清單——(1) 用到的 Redis 7.4+ 功能（fork 後新增、Valkey 可能沒有）、(2) 載入的 Redis Stack module。這兩塊是僅有的相容風險，其餘資料層零工作。盤點方法：

1# 盤點載入的 module（最大相容風險）
2redis-cli MODULE LIST
3
4# 盤點是否用到 7.4+ 功能（抓 production traffic 對照 Redis 7.4 changelog）
5redis-cli MONITOR    # 限時抓樣、grep 可疑的新命令

Step-by-step cutover

因為 RDB 檔案相容，cutover 比 DragonflyDB 更簡單（無版本轉換風險）：

 1# 1. 部署 Valkey（同 Redis 配置、可直接沿用 redis.conf）
 2docker run -d --name valkey -p 6380:6379 \
 3  -v /data/valkey:/data \
 4  valkey/valkey:8 valkey-server /etc/valkey/valkey.conf
 5
 6# 2. Redis 端 BGSAVE 產生 RDB
 7redis-cli -h redis-primary BGSAVE
 8redis-cli -h redis-primary INFO Persistence | grep rdb_last_save_time
 9
10# 3. 把 dump.rdb 拷給 Valkey（檔案格式相容、無需轉換）
11scp redis-primary:/var/lib/redis/dump.rdb valkey-host:/data/valkey/
12
13# 4. 重啟 Valkey 載入 RDB
14docker restart valkey
15
16# 5. 驗證資料一致 + 版本
17valkey-cli -h valkey-host -p 6380 DBSIZE          # 對齊 Redis DBSIZE
18valkey-cli -h valkey-host -p 6380 INFO server | grep redis_version  # 7.2.4
19
20# 6. 替代方案（零停機）：用 replicaof 讓 Valkey 當 Redis 的 replica、即時同步後 promote
21#    valkey-cli -h valkey-host REPLICAOF redis-primary 6379
22#    重要邊界：此路徑只在 source 是 Redis 7.2 或更早版本時成立。
23#    Redis 7.4+（Community Edition）改了複製格式、Valkey 無法當其 replica
24#    → source 為 7.4+ 時改走上面的 RDB 拷貝路徑（步驟 2-4）。
25
26# 7. Cutover：client 配置切到 Valkey endpoint、Redis 留 standby

關鍵時間點：

RDB 拷貝 + load：100GB 約 5-15 分鐘（無版本轉換、比 DragonflyDB 少一道風險）
replicaof 路徑：要零停機可讓 Valkey 當 Redis replica 即時同步、確認 lag 趨零後 promote + 切 client（僅限 source 為 Redis 7.2 或更早；7.4+ 複製格式已分歧、不適用、改走 RDB 拷貝）
Cutover：client 配置切換（單次完成、硬邊界）、Redis 留 standby 1-2 週
Decom：無相容問題後關閉 Redis

Production 故障演練

Case 1：用到 Redis 7.4+ 功能、Valkey 沒有

徵兆：cutover 後某功能報 unknown command 或行為不同，命令是 Redis 在 7.4 之後（fork 點之後）才加的。

根因：Valkey fork 自 Redis 7.2.4，Redis 7.4+ 新增的功能 Valkey 不一定跟進。pre-migration audit 漏掉了這些 fork 後的新功能。

修法：

pre-migration 對照 Redis 7.4+ changelog 盤點用到的新功能（audit 清單第一項）
Valkey 有對應就確認版本、沒有就評估改寫或留在 Redis 商業版
多數標準 cache 用法不碰 7.4+ 新功能，這個風險集中在用了較新進階功能的部署
Valkey 自己的 roadmap（valkey.io）會逐步補上 Redis 新功能，可追蹤

Case 2：載入了 Redis Stack 商業 module

徵兆：cutover 後 JSON.SET / FT.SEARCH 報 unknown command，application 部分功能失效。

根因：用了 Redis Stack 的商業 module（RedisJSON / RedisSearch），這些不在 fork 範圍。Valkey 有自己的 valkey-search / valkey-bloom，但不是同一套命令、要另外安裝。

修法：

pre-migration MODULE LIST 盤點所有載入的 module（audit 清單第二項）
確認 Valkey 對應替代（valkey-search 對 RedisSearch）、確認命令相容度
沒有對應的評估改 module-free 設計（JSON 操作拉回 application 層）或留在 Redis Inc 商業版
對應 Valkey 相容性 deep article 的三層相容邊界

Case 3：以為換 Valkey 解決了記憶體 / fork 問題

徵兆：因為 Redis 的 OOM 或 fork 延遲尖峰而遷 Valkey，遷完發現同樣問題還在。

根因：Valkey fork 自 Redis 7.2.4，繼承了完全相同的記憶體模型、eviction 演算法、AOF/RDB fork 機制。這些行為在 Valkey 上一模一樣——遷移沒有改變它們。

修法：

記憶體 / fork 調校在 Valkey 上跟 Redis 完全相同，直接套用 Redis 記憶體調校與 persistence / fork latency
遷 Valkey 的理由應是授權合規 / 多執行緒吞吐 / managed 成本，不是記憶體問題
fork 尖峰要根治走 DragonflyDB 的 fork-less，不是換 Valkey
遷移前釐清痛點是授權（Valkey 解）還是架構（Valkey 不解）

Case 4：授權合規驗證沒做完整、合規卡關

徵兆：技術遷移完成、但法務 / 合規 review 要求證明「不再使用 RSALv2 / SSPL 授權的軟體」，缺少證據。

根因：這個遷移的 driver 是授權合規，但團隊只做了技術 cutover、沒收集合規證據。Redis 的 binary / image / 相依套件若還殘留在某些環境，合規目標沒真正達成。

修法：

盤點所有環境（dev / staging / prod / CI）的 Redis binary / image / 相依，確認全部換成 Valkey
收集合規證據：image SBOM、套件清單、部署 manifest 顯示 Valkey BSD 授權
把「不再使用非 OSI 授權 cache」寫成可驗證的 CI 檢查（掃 image / 依賴）
依 migration 方法論的合規驅動漏類，audit 重點就是 evidence collection

Case 5：監控 dashboard 部分指標斷掉

徵兆：cutover 後 RedisInsight 或某監控 dashboard 部分面板空白、vendor-specific 命令回錯。

根因：RedisInsight 等 Redis Inc 工具有部分偏商業版的命令，Valkey 不一定實作。核心指標通用，但進階面板可能缺。

修法：

監控改用通用工具：valkey-cli INFO、Prometheus + redis_exporter（相容 Valkey）、Grafana
核心指標（used_memory / keyspace_hits / connected_clients）在 Valkey 完全相容、覆蓋不受影響
把監控相容性納入 cutover 前驗證、不要遷完才發現面板空白
RedisInsight 連 Valkey 多數仍可用、只是部分 vendor 進階面板缺

Capacity / cost 對照

維度	Redis（self-managed）	Valkey（self-managed）	取捨
授權	RSALv2 / SSPL（非 OSI）	BSD 3-clause（OSI、Linux Foundation）	Valkey 對合規敏感場景是決定性優勢
核心效能	baseline	同 Redis 7.2.4 + 8.x 多執行緒選項	Valkey 多核 workload 可更高（依 workload）
相容度	原生	100%（fork、檔案相容）	平手（同源）
記憶體 / fork	baseline	完全相同（同源）	平手（遷移不改變這層）
7.4+ 新功能	有	不一定跟進	Redis 領先（用到才在意）
Redis Stack module	RedisJSON / Search / Graph	valkey-search / valkey-bloom（不同套）	Redis 商業 module 較全
managed 選項	ElastiCache for Redis（legacy）	ElastiCache for Valkey（AWS default、約低 20%）	Valkey 在 AWS 生態成本優勢
遷移成本	—	極低（drop-in + 檔案相容）	Valkey 是最容易的遷移目標

判讀：合規敏感（公部門 / 企業 OSI 政策）或想降 managed 成本 → 遷 Valkey（drop-in、風險集中在 module / 7.4+ 盤點）；重度依賴 Redis Stack 商業 module → 留 Redis Inc 商業版。

整合 / 下一步

跟 ElastiCache for Valkey 對位

AWS 已把 ElastiCache default engine 設為 Valkey（約低 Redis 20%）。自管 Redis → ElastiCache for Valkey 是「換授權 + 轉 managed」一次到位，但要同時處理 managed 責任邊界（failover / cluster mode / client 重連）。

跟 client / 監控整合

client library 零改（透過 redis_version 協商）；監控把 exporter 指向 Valkey 即可（redis_exporter 相容）、RedisInsight 部分面板需換通用工具。

跟 Valkey 8 多執行緒對位

遷移後可評估開 Valkey 8 的 io-threads 榨多核吞吐（Redis 7.2.4 沒有的能力），見 Valkey 相容性與 io-threads deep article。

下一步議題

反向遷移（Valkey → Redis）：僅在重度依賴 Redis 7.4+ 功能或 Stack 商業 module 時需要、同樣 drop-in
跨雲 managed Valkey：GCP Memorystore / Azure Cache 的 Valkey 支援陸續推出、評估 vendor boundary
授權合規 CI 化：把「不使用非 OSI 授權 cache」寫成持續檢查

Valkey 相容性驗證與 io-threads 調校：drop-in 切換與多執行緒的實機判讀

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Valkey overview 的 implementation-layer deep article。選型層（為何 fork、授權治理、何時選 Valkey）見 overview；本文只處理「決定用 Valkey 後，相容性怎麼驗、執行緒怎麼調」。命令實機驗證於 valkey/valkey:8 image（valkey_version 8.1.8）、最後檢查日 2026-06-16；效能數字以 valkey.io 官方 benchmark 為準。

「100% 相容」要能驗證才敢切

Valkey 從 Redis 7.2.4 fork、宣稱 100% API 相容、drop-in 替換——這對選型是好消息，對上線前的工程師卻是一個需要證據的斷言。把 production 的 Redis 換成 Valkey，最怕的不是「大部分指令能跑」，而是某個邊角行為、某個 client library 的版本協商、某個 module 沒有對應 fork，在切換後才浮現。相容性不能靠信任，要靠驗證。

驗證的起點是一個容易被忽略的細節：Valkey 的 INFO server 同時回報兩個版本號。

1docker exec valkey valkey-cli INFO server | grep -E "redis_version|valkey_version|server_name"
2# redis_version:7.2.4    ← client library 以此協商相容行為
3# server_name:valkey
4# valkey_version:8.1.8   ← Valkey 自身的演進線

這個雙版本回報就是相容性的機制本身：client library 看到 redis_version:7.2.4，就以 Redis 7.2.4 的協定與行為運作，完全不知道背後是 Valkey；valkey_version 才是 Valkey 自己的版本，記錄它在 fork 之後加了什麼（例如 8.x 的多執行緒）。理解這條雙線——「對外裝成 Redis 7.2.4、對內持續演進」——是判斷相容性邊界的鑰匙。

對大規模生產驗證，Tinder 的配對引擎是現成的證據：4700 萬月活、每次滑動讀多個 cache、sub-millisecond 延遲，跑在 Amazon ElastiCache for Valkey 上——這個規模的服務跑在 Valkey 上，本身就是相容性的背書。另一個訊號是 AWS 在 2024 把 ElastiCache 的 default engine 從 Redis 改成 Valkey（AWS 宣稱成本較 Redis OSS 低約 20%、以 ElastiCache 定價為準、最後檢查日 2026-06-16）。這些都是外部背書，但各服務有自己的 client library、module 與邊角用法，仍需自行驗證。

核心概念：相容性的三層邊界

「100% 相容」在不同層次有不同的精確度，驗證要分三層做。

協定與核心指令層：完全相容。string / hash / list / set / sorted set / stream / hyperloglog / geo 的所有指令、TTL / eviction / persistence / pub-sub / transaction、RESP 協定——這層是 fork 自 Redis 7.2.4 的部分，行為一致。所有標準 Redis client library 透過 redis_version 協商，直接連、不改 code。

檔案格式層：相容。RDB 與 AOF 的檔案格式跟 Redis 7.2.4 一致，可以直接把 Redis 的資料目錄拷給 Valkey 載入——這是 drop-in 遷移的基礎，不需要 dump / reload。

生態與新功能層：要逐項確認。Redis 7.4+ 在 fork 之後新增的功能（Valkey 不一定跟進）、Redis Stack 的商業 module（RedisJSON / RedisSearch，Valkey 有自己的 valkey-search / valkey-bloom 但不是同一套）、偏 Redis Inc 的監控工具（RedisInsight 部分 vendor-specific 命令）——這層是相容性的真實風險所在，驗證要集中在這裡。

驗證的操作順序：先確認 client library 連得上且核心指令正常（第一層），再確認資料能載入（第二層），最後盤點你實際用到的 module 與 7.4+ 功能（第三層）。前兩層幾乎必過，工夫花在第三層。

配置：io-threads 多執行緒調校

Valkey 跟 Redis 7.2.4 拉開的第一個實質技術差異是執行緒模型。Redis 的命令處理是單執行緒（I/O threads 只分擔 socket 讀寫，命令仍在主執行緒），Valkey 8.x 把更多 I/O 路徑非同步化，在多核機器上能讓單實例吞吐明顯高於 Redis——具體倍數依 workload 與核數而定，以 valkey.io 官方 benchmark 為準，這裡不複述未經自己壓測的數字。

執行緒由 io-threads 控制，預設 1（單執行緒，跟 Redis 行為一致）：

1# 確認目前執行緒數（預設 1）
2valkey-cli CONFIG GET io-threads
3# 1) "io-threads"
4# 2) "1"
5
6# 調高 I/O 執行緒數（建議不超過機器實體核數、留核給其他進程）
7# redis.conf / valkey.conf:
8#   io-threads 4

調校判讀：

io-threads 是啟動參數，多數版本需要重啟生效（不是所有 CONFIG SET 都能熱套），改 conf 後 rolling restart
設定值對齊機器核數但留 headroom，例如 8 核機器設 4-6，不要設滿
單核或低核機器設 1（預設）即可，多執行緒在核數不足時沒有收益反而增加切換開銷
I/O 密集（大量小命令、高連線數）的 workload 收益最明顯；CPU 密集的重命令（大 Lua、大 collection 操作）收益有限

調完用實際 workload 壓測驗證，不要假設「開了就快」——執行緒配置的收益高度依賴 workload 形狀。

Production 故障演練

Case 1：切換後 module 指令報 unknown command

徵兆：drop-in 換成 Valkey 後核心功能正常，但某些路徑報 ERR unknown command 'JSON.SET' 或 FT.SEARCH，application 部分功能失效。

根因：用到了 Redis Stack 的商業 module（RedisJSON / RedisSearch）。這些 module 不在 fork 範圍內，Valkey 有自己的 valkey-search / valkey-bloom，但不是同一套指令、需要另外安裝。

修法：

切換前用 MODULE LIST 在原 Redis 上盤點所有載入的 module
逐個確認 Valkey 是否有對應替代（valkey-search 對 RedisSearch 等），確認指令相容度
沒有對應的 module，評估改用 module-free 設計（例如把 JSON 操作拉回 application 層）
重度依賴 Redis Stack 商業 module 的場景，相容性邊界在這裡，可能該留在 Redis Inc 商業版

Case 2：client library 太舊、協商失敗

徵兆：絕大多數 client 正常，但某個老服務的 client library 連 Valkey 報協定錯誤或行為異常。

根因：Valkey 回報 redis_version:7.2.4，client library 若太舊（不支援 Redis 7.2 對應的協定特性，例如 RESP3）會協商失敗。這不是 Valkey 的問題，是 client 本來就跟不上 Redis 7.2。

修法：

valkey-cli INFO server 確認回報的 redis_version，對照 client library 支援到哪個 Redis 版本
升級過舊的 client library 到支援 Redis 7.2 的版本
必要時 client 端強制用 RESP2（多數 library 可配置），避開 RESP3 協商
這類問題在升級 Redis 7.2 時也會遇到，不是 Valkey 特有

Case 3：監控工具部分指標消失

徵兆：切換後 RedisInsight 或某監控 dashboard 部分面板空白、某些 vendor-specific 命令回錯。

根因：RedisInsight 等 Redis Inc 工具有部分偏 Redis 商業版的命令，Valkey 不一定實作。核心指標（memory / hit rate / connections）通用，但 vendor-specific 的進階面板可能缺。

修法：

監控改用通用工具：valkey-cli INFO、Prometheus + redis_exporter（相容 Valkey）、Grafana
核心指標（used_memory / keyspace_hits / connected_clients）在 Valkey 完全相容，監控覆蓋不受影響
把監控的相容性納入切換前驗證清單，不要切換後才發現面板空白
對應記憶體與連線調校用到的 INFO 指標，這些在 Valkey 都通用

Case 4：io-threads 開太多、效能反而下降

徵兆：把 io-threads 從 1 調到 16 想榨效能，結果延遲不降反升、CPU 使用率異常。

根因：io-threads 設成超過機器實體核數，執行緒互搶 CPU、context switch 開銷超過平行收益。或 workload 是 CPU 密集（重命令），I/O 多執行緒對它沒幫助。

修法：

io-threads 不超過實體核數，留 headroom 給 OS 與其他進程（8 核設 4-6）
用實際 workload 壓測對比不同 io-threads 值的延遲與吞吐，不要憑感覺調滿
CPU 密集 workload 收益有限，問題可能在命令本身太重（大 collection / 大 Lua），先優化命令
多執行緒解的是 I/O 平行度，不是單命令執行速度，分清楚瓶頸在哪

Case 5：以為換 Valkey 就解決了 Redis 的記憶體 / fork 問題

徵兆：因為 Redis 的 fork 延遲尖峰或記憶體 OOM 而切到 Valkey，切完發現同樣的尖峰與 OOM 還在。

根因：Valkey fork 自 Redis 7.2.4，繼承了 Redis 的記憶體模型、eviction 演算法、AOF/RDB fork 機制。這些行為在 Valkey 上完全一致——Valkey 的差異在執行緒與授權，不在記憶體與持久化架構。

修法：

記憶體 / 淘汰 / fork 的調校在 Valkey 上跟 Redis 完全一樣，直接套用 Redis 記憶體調校與 persistence / fork latency
fork 尖峰是 Redis 系列的共同架構限制，要根治走 DragonflyDB 的 fork-less 機制，不是換 Valkey
切換 Valkey 的理由應該是授權合規、多執行緒吞吐或 managed 成本，不是記憶體問題
切換前釐清痛點：是授權 / 成本（Valkey 解）還是記憶體 / fork 架構（Valkey 不解）

Capacity / cost 邊界

Valkey 的容量判讀，多數沿用 Redis（同源），差異集中在執行緒與授權成本：

維度	Valkey 的情況	判讀
核心指標（記憶體 / hit rate）	跟 Redis 完全一致	直接套用 Redis 的容量判讀
`io-threads`	預設 1、可調至接近核數	多核 + I/O 密集才有收益、需壓測驗證
單實例吞吐	多執行緒下高於 Redis（依 workload）	以 valkey.io benchmark 為準、自己壓測
授權成本	BSD 3-clause、商業使用無限制	合規敏感場景的決定性優勢
managed 成本	ElastiCache for Valkey 約低 Redis 20%	AWS 生態的成本優化路徑

撞牆後的路由判斷：

記憶體 / fork 是瓶頸：Valkey 同源、不解這層，走 DragonflyDB（fork-less + 更省記憶體）或 Redis 系列的 Cluster 分片。
需要 Redis Stack 商業 module：Valkey 的 valkey-search / valkey-bloom 覆蓋不到全部，重度依賴走 Redis Inc 商業版。
不想自管：ElastiCache for Valkey 是 AWS 的 default engine，managed failover / snapshot / patching 全託管，成本比 ElastiCache for Redis 低約 20%。

整合 / 下一步

Valkey 的 deep article 大量複用 Redis 的調校知識（同源），它自己的獨特性在相容性驗證、執行緒與授權：

跟 Redis 全系列 deep article：記憶體、持久化、Sentinel、連線的調校在 Valkey 上完全一致，Valkey 不重寫這些，直接套用。
跟 ElastiCache for Valkey：managed Valkey 把執行緒與 failover 託管，省掉自管的調校與演練。
跟 Tinder 的 ElastiCache for Valkey 案例：4700 萬月活的 sub-millisecond 配對引擎是相容性與規模化的生產證據，但 module / client 的相容性仍需逐案驗證。
跟 DragonflyDB：兩者都打「Redis 相容 + 更好的執行緒」，但 Valkey 是 fork（同源、最高相容），DragonflyDB 是 C++ 重寫（相容核心但架構不同），選型差異在相容度 vs 架構激進度。

ElastiCache → 自管 Redis / Valkey：脫離 managed 的遷移路徑

Mon, 22 Jun 2026 00:00:00 +0000

本文是跨 vendor migration playbook、cross-link 到 AWS ElastiCache（source）跟 Redis / Valkey（target）。跑 6 維 diff dimension audit 後判定為 Type C operational redesign hybrid：engine 層相容（Low）但 operational model 差異大（IAM auth → password/ACL、CloudWatch → 自管監控、auto failover → Sentinel/自建 HA）。

為什麼從 managed 遷出

ElastiCache 遷出的 driver 通常不是 engine 層問題 — 它跑的就是 Redis 或 Valkey。常見遷出原因：

成本：managed premium 在大規模（數百 GB、多叢集）下比自管 + 運維人力更貴，尤其跨帳戶大量叢集時
跨雲或混合雲：業務需要在 GCP、Azure 或 on-prem 同時運行 cache 層，ElastiCache 只在 AWS
功能限制：ElastiCache 不支援所有 Redis module（RediSearch、RedisJSON 等），或 Valkey 8.x 新功能 ElastiCache 尚未上線
控制權：自管可以自訂 redis.conf、自選 kernel 參數、自決 upgrade 時機

資料搬遷用 RDB export + import 就完成，真正的工程量在 operational model 重建 — ElastiCache 幫你管的 HA、monitoring、backup、security，遷出後全要自建。

6 維 diff dimension audit

維度	評估	等級
Schema / API	同 Redis/Valkey engine、RESP 相容	Low
Operational model	IAM auth → ACL/password、CloudWatch → 自管監控、auto failover → Sentinel 或手動	High
Abstraction / paradigm	相同（key-value cache）	Low
Number of components	ElastiCache 1 → Redis/Valkey + Sentinel/HA + 監控 + backup 多元件	Medium
Application change	endpoint 換、認證方式換、少量 client config 修改	Low-Medium
Data topology	RDB 相容、cluster mode 對應 Redis Cluster	Low

Operational model 是 High — 這是 Type C 的判定依據。遷移重心在重建 ElastiCache 幫你做的那些事。

階段一：盤點 ElastiCache 依賴

在動手之前，先列出 ElastiCache 幫你管的所有東西，每一項都要在自管環境重建或決定不要。

認證與網路

IAM auth：ElastiCache 支援 IAM auth token（短效 token），自管 Redis 改用 requirepass 或 Redis 6+ ACL
VPC / Security Group：自管 Redis 仍需 VPC 隔離，但 security group 規則要自己維護
TLS：ElastiCache 原生 in-transit encryption，自管要自己配 redis TLS 憑證

高可用

Auto failover：ElastiCache 自動偵測 primary failure 並 promote replica。自管用 Sentinel HA failover 或 Redis Cluster 內建 failover
Cross-AZ replication：ElastiCache 自動跨 AZ。自管要自己在不同 AZ 部署 replica

監控與備份

CloudWatch metrics：ElastiCache 自動發 CurrConnections、CacheHitRate、ReplicationLag 等。自管用 INFO 指令 + Prometheus redis_exporter
Snapshot：ElastiCache 自動 daily snapshot + 手動 snapshot。自管用 BGSAVE + cron + 外部 storage

跨 region replication

Global Datastore：ElastiCache 支援跨 region active-passive replication。自管 Redis 沒有原生跨 region replication — 若目前使用 Global Datastore，遷出前需要決定是用 application-level replication、第三方工具（Redis Enterprise Active-Active）還是放棄跨 region cache 同步

升級與維護

Engine 升級：ElastiCache 在維護窗口自動或手動升級。自管要自己做 rolling upgrade
Patch：安全 patch 由 AWS 負責。自管要自己追蹤 CVE

階段二：建立自管環境

部署架構

最小 production 架構：1 primary + 1 replica + 3 Sentinel（或 Redis Cluster 3 primary + 3 replica）。

1# Docker Compose 驗證用（production 用 VM 或 K8s）
2# Primary
3docker run -d --name redis-primary -p 6379:6379 redis:7 \
4  redis-server --requirepass "$REDIS_PASSWORD" --appendonly yes
5
6# Replica
7docker run -d --name redis-replica -p 6380:6379 redis:7 \
8  redis-server --replicaof redis-primary 6379 \
9  --masterauth "$REDIS_PASSWORD" --requirepass "$REDIS_PASSWORD"

Sentinel 或 Redis Cluster 配置見 Sentinel HA Failover。

監控重建

ElastiCache CloudWatch metrics 對應的自管替代：

ElastiCache metric	自管替代	來源
CurrConnections	`connected_clients`	`INFO clients`
CacheHitRate	`keyspace_hits / (keyspace_hits + keyspace_misses)`	`INFO stats`
ReplicationLag	`master_repl_offset - slave_repl_offset`	`INFO replication`
EngineCPUUtilization	`used_cpu_sys + used_cpu_user`	`INFO cpu`
DatabaseMemoryUsagePercentage	`used_memory / maxmemory`	`INFO memory`
Evictions	`evicted_keys`	`INFO stats`

用 Prometheus redis_exporter 自動採集，接 Grafana dashboard。

Backup 重建

1# cron job: 每日 BGSAVE + 等完成 + 上傳 S3
2# LASTSAVE 回傳 Unix timestamp，BGSAVE 完成後 LASTSAVE 會更新
30 3 * * * BEFORE=$(redis-cli -a "$REDIS_PASSWORD" LASTSAVE) && \
4  redis-cli -a "$REDIS_PASSWORD" BGSAVE && \
5  while [ "$(redis-cli -a "$REDIS_PASSWORD" LASTSAVE)" = "$BEFORE" ]; do sleep 5; done && \
6  aws s3 cp /data/dump.rdb s3://backup-bucket/redis/$(date +\%Y\%m\%d).rdb

Production 建議搭配 persistence fork latency 的監控，確認 BGSAVE 的 fork 不會造成延遲 spike。

階段三：資料搬遷與切換

搬遷策略

ElastiCache 的資料搬遷有兩條路：

RDB export + import（適合 downtime 可接受的場景）：

ElastiCache 建立手動 snapshot
把 snapshot export 到 S3（ElastiCache console → Export snapshot）
下載 RDB 檔，放到自管 Redis 的資料目錄
重啟自管 Redis 載入 RDB

雙寫期間遷移（適合零停機需求）：

Application 同時寫 ElastiCache 和自管 Redis（雙寫）
讀取仍走 ElastiCache
監控自管 Redis 的資料量與命中率追上後，切讀取到自管
移除 ElastiCache 寫入
下線 ElastiCache

雙寫的複雜度高於 RDB export。Cache 資料可重建的特性讓第一種策略在多數場景夠用 — 短暫 cache miss 的代價是回源到 DB，通常可接受。

Endpoint 切換

Application 用 endpoint 連 ElastiCache。切換時：

把 application config 的 Redis host 改為自管 Redis endpoint
確認 TLS 與認證方式對齊（IAM token → password/ACL）
Rolling restart application
監控 cache hit rate 與 latency 回到 baseline

如果用 DNS CNAME 間接指向 ElastiCache endpoint，可以直接改 CNAME 指向自管 Redis，application 不用改 config。

階段四：驗證與回退

驗證清單

驗證項目	通過條件	工具
連線正常	application 能 PING、無 auth error	redis-cli + application log
資料完整	key count 跟 ElastiCache 一致（容許 TTL 過期差異）	`DBSIZE` 比對
效能 baseline	latency p99 與 hit rate 跟遷移前一致	Prometheus + Grafana
HA 測試	kill primary，Sentinel promote replica，application 自動重連	手動 failover drill
Backup 測試	BGSAVE 產生 RDB、上傳成功、可還原	還原到測試 instance 驗證

回退路徑

Cache 遷移的回退比 DB 遷移簡單 — cache 資料可重建。回退步驟：

Application config 改回 ElastiCache endpoint（或 CNAME 指回）
Rolling restart
Cache miss 回源到 DB，自然 warm up

ElastiCache 在遷移期間不要下線，保留 7-14 天作為回退保險。確認自管 Redis 穩定運行後再刪除 ElastiCache cluster。

成本對照

項目	ElastiCache	自管 Redis
Compute	managed node pricing（含 premium）	EC2 / K8s 原價
HA	auto failover 內建	Sentinel 或 Cluster 自建
監控	CloudWatch 內建	redis_exporter + Prometheus 自建
Backup	自動 snapshot	cron + S3 自建
人力	低（AWS 管）	高（on-call + upgrade + patch）
靈活度	受限（engine version、module）	完全自控

小規模（< 50 GB、< 5 cluster）通常 ElastiCache 的 managed premium 比自管人力便宜。Compute 跟 HA 的差額在小規模可忽略，但監控跟 backup 的自建成本是固定開銷 — 即使只管一個 cluster，redis_exporter + Prometheus + cron backup 的設定跟維護都要做。大規模（數百 GB、多叢集）或跨雲場景下，managed premium 累積到 cluster 數 × node 數的倍數，自管的邊際成本反而更低，遷出 ROI 才成立。

交接路由

Source vendor overview：AWS ElastiCache
Target vendor 操作：Redis Sentinel HA、Redis Cluster Resharding
監控重建：Redis Memory Eviction Tuning、Redis Persistence Fork Latency
反向路徑：Redis → ElastiCache

Valkey on Tarragon

DragonflyDB → Redis / Valkey：回退到標準生態的遷移路徑

為什麼從 DragonflyDB 遷回

6 維 diff dimension audit

相容性確認

階段一：資料匯出

階段二：HA 架構重建

Sentinel 路徑（適合非分片場景）

Cluster 路徑（適合需要分片的場景）

階段三：Client 切換

階段四：效能 baseline 與回退

效能預期

回退路徑

交接路由

KeyDB → Redis / Valkey：從多線程 fork 回歸主線的遷移路徑

為什麼從 KeyDB 遷回

6 維 diff dimension audit

KeyDB 特有功能的處理

Active-active 拆除

資料搬遷

效能差異預期

回退路徑

交接路由

Redis → Valkey：同一份程式碼、不同授權的 drop-in 遷移

同一份程式碼、不同授權

6 維 diff dimension audit：為什麼是 Type B

相容性 audit：cutover 前要確認的清單

Step-by-step cutover

Production 故障演練

Case 1：用到 Redis 7.4+ 功能、Valkey 沒有

Case 2：載入了 Redis Stack 商業 module

Case 3：以為換 Valkey 解決了記憶體 / fork 問題

Case 4：授權合規驗證沒做完整、合規卡關

Case 5：監控 dashboard 部分指標斷掉

Capacity / cost 對照

整合 / 下一步

跟 ElastiCache for Valkey 對位

跟 client / 監控整合

跟 Valkey 8 多執行緒對位

下一步議題

相關連結

Valkey 相容性驗證與 io-threads 調校：drop-in 切換與多執行緒的實機判讀

「100% 相容」要能驗證才敢切

核心概念：相容性的三層邊界

配置：io-threads 多執行緒調校

Production 故障演練

Case 1：切換後 module 指令報 unknown command

Case 2：client library 太舊、協商失敗

Case 3：監控工具部分指標消失

Case 4：io-threads 開太多、效能反而下降

Case 5：以為換 Valkey 就解決了 Redis 的記憶體 / fork 問題

Capacity / cost 邊界

整合 / 下一步

相關連結

ElastiCache → 自管 Redis / Valkey：脫離 managed 的遷移路徑

為什麼從 managed 遷出

6 維 diff dimension audit

階段一：盤點 ElastiCache 依賴

認證與網路

高可用

監控與備份

跨 region replication

升級與維護

階段二：建立自管環境

部署架構

監控重建

Backup 重建

階段三：資料搬遷與切換

搬遷策略

Endpoint 切換

階段四：驗證與回退

驗證清單

回退路徑

成本對照

交接路由