<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Cross-Vendor on Tarragon</title><link>https://tarrragon.github.io/blog/tags/cross-vendor/</link><description>Recent content in Cross-Vendor on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/cross-vendor/index.xml" rel="self" type="application/rss+xml"/><item><title>Splunk → Elastic Security Detection Rule Migration：6 段 phased playbook 跟 5 大踩雷</title><link>https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/splunk/migrate-to-elastic-security/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/splunk/migrate-to-elastic-security/</guid><description>&lt;blockquote>
&lt;p>本文是跨 vendor migration playbook、cross-link 到 &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/splunk/" data-link-title="Splunk" data-link-desc="業界 SIEM 標準、forwarder &amp;#43; indexer &amp;#43; search head 架構、SPL 為核心查詢語言、ingestion-based 計費跟偵測覆蓋率的 trade-off">Splunk&lt;/a>（source）跟 &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/elastic-security/" data-link-title="Elastic Security" data-link-desc="Elastic Stack 上的 SIEM &amp;#43; EDR &amp;#43; Cloud Security 套件、OSS 起源、KQL/EQL/Lucene/ES|QL 多查詢語言、resource-based pricing">Elastic Security&lt;/a>（target）兩個 vendor overview。Migration playbook 跟 &lt;a href="https://tarrragon.github.io/blog/posts/vendor-%E6%B7%B1%E5%BA%A6%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84%E5%90%8C-vendor-%E7%B3%BB%E5%88%97%E7%9A%84%E9%96%8B%E5%A0%B4%E8%BC%AA%E6%9B%BF%E9%A9%97%E8%AD%89/" data-link-title="Vendor 深度技術文章方法論的演化紀錄：同 vendor 系列的開場輪替驗證" data-link-desc="vendor overview 飽和後要寫單一功能深度文章、需要選題與結構依據時回來。這套方法論的驗證來源與 cadence variant 在高風險場景（同 vendor sub-tool 系列）的實證。">vendor deep article methodology&lt;/a> 的 6-section flow 不同 — 是 &lt;em>phased process&lt;/em>（audit → translation → parallel run → cutover → cleanup）、強調 &lt;em>時間軸&lt;/em> 跟 &lt;em>回退邊界&lt;/em>。&lt;/p>&lt;/blockquote>
&lt;h2 id="為什麼遷cost--multi-vendor--cloud-native-三條-driver">為什麼遷：cost / multi-vendor / cloud-native 三條 driver&lt;/h2>
&lt;p>Splunk → Elastic 遷移在 2022+ 變主流選項、driver 通常三條疊加：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>Driver&lt;/th>
 &lt;th>觸發場景&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;strong>Cost&lt;/strong>&lt;/td>
 &lt;td>Splunk per-GB ingest pricing 在 5+ TB/day 規模累積到無法接受、Elastic fixed-tier pricing 可省 50-70%&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>Multi-vendor&lt;/strong>&lt;/td>
 &lt;td>想避免 SIEM lock-in、跟 &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/google-security-operations/" data-link-title="Google Security Operations" data-link-desc="Google 雲原生 SIEM &amp;#43; SOAR &amp;#43; Mandiant threat intel 三合一（前 Chronicle）、UDM &amp;#43; YARA-L、fixed-price by data tier、PB-scale 友善">Sentinel&lt;/a> / &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/datadog-security/" data-link-title="Datadog Security" data-link-desc="Datadog observability platform 上的 security suite：Cloud SIEM &amp;#43; CSPM &amp;#43; CWS &amp;#43; AAP &amp;#43; Sensitive Data Scanner、跟 observability 同 plane">Datadog Security&lt;/a> 同時跑形成 portfolio&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>Cloud-native&lt;/strong>&lt;/td>
 &lt;td>已用 Elasticsearch / Kibana 做 application observability、想統一 stack 走 Elastic Cloud / ECK&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>反向 driver（Elastic → Splunk）也存在但少數 — 主要是 &lt;em>合規 / 政府客戶要 Splunk Cloud GovCloud&lt;/em>、或 &lt;em>Splunk Premium ES 的 RBA + UEBA 成熟度仍領先&lt;/em>。本文聚焦 Splunk → Elastic、反向流程結構相同但 &lt;em>schema 對位方向相反&lt;/em>。&lt;/p>
&lt;h2 id="結構phased-migration-不是-6-section-deep-article">結構：phased migration 不是 6-section deep article&lt;/h2>
&lt;p>跟 single-feature deep article（&lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/splunk/risk-based-alerting/" data-link-title="Splunk Risk-Based Alerting：從 alert per rule 到 score-aggregated notable" data-link-desc="Splunk Enterprise Security 的 RBA 方法論：risk score / modifier / notable 三層 model、ES 配置 step-by-step、tuning playbook（false positive / score inflation / threshold drift / decay）、capacity 成本、跟 SOAR &amp;#43; case management 整合">Splunk RBA&lt;/a>、Vault dynamic credential）不同、migration playbook 的核心是 &lt;em>time-sequenced phase&lt;/em> + &lt;em>回退邊界&lt;/em>。6 段 phase：&lt;/p></description><content:encoded><![CDATA[<blockquote>
<p>本文是跨 vendor migration playbook、cross-link 到 <a href="/blog/backend/07-security-data-protection/vendors/splunk/" data-link-title="Splunk" data-link-desc="業界 SIEM 標準、forwarder &#43; indexer &#43; search head 架構、SPL 為核心查詢語言、ingestion-based 計費跟偵測覆蓋率的 trade-off">Splunk</a>（source）跟 <a href="/blog/backend/07-security-data-protection/vendors/elastic-security/" data-link-title="Elastic Security" data-link-desc="Elastic Stack 上的 SIEM &#43; EDR &#43; Cloud Security 套件、OSS 起源、KQL/EQL/Lucene/ES|QL 多查詢語言、resource-based pricing">Elastic Security</a>（target）兩個 vendor overview。Migration playbook 跟 <a href="/blog/posts/vendor-%E6%B7%B1%E5%BA%A6%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84%E5%90%8C-vendor-%E7%B3%BB%E5%88%97%E7%9A%84%E9%96%8B%E5%A0%B4%E8%BC%AA%E6%9B%BF%E9%A9%97%E8%AD%89/" data-link-title="Vendor 深度技術文章方法論的演化紀錄：同 vendor 系列的開場輪替驗證" data-link-desc="vendor overview 飽和後要寫單一功能深度文章、需要選題與結構依據時回來。這套方法論的驗證來源與 cadence variant 在高風險場景（同 vendor sub-tool 系列）的實證。">vendor deep article methodology</a> 的 6-section flow 不同 — 是 <em>phased process</em>（audit → translation → parallel run → cutover → cleanup）、強調 <em>時間軸</em> 跟 <em>回退邊界</em>。</p></blockquote>
<h2 id="為什麼遷cost--multi-vendor--cloud-native-三條-driver">為什麼遷：cost / multi-vendor / cloud-native 三條 driver</h2>
<p>Splunk → Elastic 遷移在 2022+ 變主流選項、driver 通常三條疊加：</p>
<table>
  <thead>
      <tr>
          <th>Driver</th>
          <th>觸發場景</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>Cost</strong></td>
          <td>Splunk per-GB ingest pricing 在 5+ TB/day 規模累積到無法接受、Elastic fixed-tier pricing 可省 50-70%</td>
      </tr>
      <tr>
          <td><strong>Multi-vendor</strong></td>
          <td>想避免 SIEM lock-in、跟 <a href="/blog/backend/07-security-data-protection/vendors/google-security-operations/" data-link-title="Google Security Operations" data-link-desc="Google 雲原生 SIEM &#43; SOAR &#43; Mandiant threat intel 三合一（前 Chronicle）、UDM &#43; YARA-L、fixed-price by data tier、PB-scale 友善">Sentinel</a> / <a href="/blog/backend/07-security-data-protection/vendors/datadog-security/" data-link-title="Datadog Security" data-link-desc="Datadog observability platform 上的 security suite：Cloud SIEM &#43; CSPM &#43; CWS &#43; AAP &#43; Sensitive Data Scanner、跟 observability 同 plane">Datadog Security</a> 同時跑形成 portfolio</td>
      </tr>
      <tr>
          <td><strong>Cloud-native</strong></td>
          <td>已用 Elasticsearch / Kibana 做 application observability、想統一 stack 走 Elastic Cloud / ECK</td>
      </tr>
  </tbody>
</table>
<p>反向 driver（Elastic → Splunk）也存在但少數 — 主要是 <em>合規 / 政府客戶要 Splunk Cloud GovCloud</em>、或 <em>Splunk Premium ES 的 RBA + UEBA 成熟度仍領先</em>。本文聚焦 Splunk → Elastic、反向流程結構相同但 <em>schema 對位方向相反</em>。</p>
<h2 id="結構phased-migration-不是-6-section-deep-article">結構：phased migration 不是 6-section deep article</h2>
<p>跟 single-feature deep article（<a href="/blog/backend/07-security-data-protection/vendors/splunk/risk-based-alerting/" data-link-title="Splunk Risk-Based Alerting：從 alert per rule 到 score-aggregated notable" data-link-desc="Splunk Enterprise Security 的 RBA 方法論：risk score / modifier / notable 三層 model、ES 配置 step-by-step、tuning playbook（false positive / score inflation / threshold drift / decay）、capacity 成本、跟 SOAR &#43; case management 整合">Splunk RBA</a>、Vault dynamic credential）不同、migration playbook 的核心是 <em>time-sequenced phase</em> + <em>回退邊界</em>。6 段 phase：</p>
<table>
  <thead>
      <tr>
          <th>Phase</th>
          <th>內容</th>
          <th>預估時長</th>
          <th>回退邊界</th>
          <th></th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>Phase 0：rule audit</strong></td>
          <td>盤點 Splunk 端 rule、量化 precision / FP rate / alert volume</td>
          <td>1-2 週</td>
          <td>不影響 production</td>
          <td></td>
      </tr>
      <tr>
          <td><strong>Phase 1：schema 對位</strong></td>
          <td>SPL ↔ KQL / ES</td>
          <td>QL、CIM ↔ ECS、index ↔ data view 對應規格</td>
          <td>1-2 週</td>
          <td>不影響 production</td>
      </tr>
      <tr>
          <td><strong>Phase 2：translation</strong></td>
          <td>rule 一條條轉、AI-assisted + 人工 verify</td>
          <td>4-12 週</td>
          <td>翻譯失敗的 rule 退回 manual / 標 deferred</td>
          <td></td>
      </tr>
      <tr>
          <td><strong>Phase 3：parallel run</strong></td>
          <td>兩 SIEM 同時跑、alert 兩邊產出、累積 confidence</td>
          <td>4-8 週</td>
          <td>切回單 Splunk、Elastic 端關 alert</td>
          <td></td>
      </tr>
      <tr>
          <td><strong>Phase 4：cutover</strong></td>
          <td>alert routing 切到 Elastic、Splunk 仍 ingest 但不送 alert</td>
          <td>1 週</td>
          <td>routing 切回 Splunk、半小時內可逆</td>
          <td></td>
      </tr>
      <tr>
          <td><strong>Phase 5：cleanup</strong></td>
          <td>Splunk ingest 停、歷史資料 archive 到 S3、license decommission</td>
          <td>2-4 週</td>
          <td><strong>不可逆</strong> — 過早走會失去歷史查詢能力</td>
          <td></td>
      </tr>
  </tbody>
</table>
<p>整個遷移週期 4-9 個月、跟 single deep article 1-2 小時完全不同 scale。</p>
<h2 id="phase-0rule-audit-建-baseline">Phase 0：rule audit 建 baseline</h2>
<p>遷移前必須先知道 <em>current state</em>：</p>





<pre tabindex="0"><code class="language-spl" data-lang="spl">-- Splunk rule 盤點
| rest /servicesNS/-/-/saved/searches
  splunk_server=local search=&#34;alert&#34;
| where disabled=0
| eval rule_age=now()-strptime(updated, &#34;%Y-%m-%dT%H:%M:%S&#34;)
| stats count, avg(rule_age) by app, owner</code></pre><p>每條 rule 量化四個指標：</p>
<table>
  <thead>
      <tr>
          <th>指標</th>
          <th>怎麼算</th>
          <th>用途</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Alert volume / day</td>
          <td><code>index=_audit action=alert_fired rule_name=X</code> 過 30 天</td>
          <td>高 volume 先翻、cutover 期間影響大</td>
      </tr>
      <tr>
          <td>Precision (TP / total)</td>
          <td>SOC review 過去 30 天 alert、標 TP / FP / unknown</td>
          <td>低 precision 先翻（藉機 fix、不是直接複製問題）</td>
      </tr>
      <tr>
          <td>Detection coverage</td>
          <td>對應 MITRE ATT&amp;CK technique</td>
          <td>確認 Elastic 端有對應 coverage、不能漏 tactic</td>
      </tr>
      <tr>
          <td>Owner / 維護狀態</td>
          <td>rule 的 owner team + 最後 update 時間</td>
          <td>Owner 失聯的 rule 翻譯成本爆、考慮直接退役</td>
      </tr>
  </tbody>
</table>
<p><strong>Audit 階段的關鍵決策：哪些 rule 不翻譯</strong> — production 通常 30-50% rule 是 legacy / dead code / 已 deprecated；遷移是 <em>清理機會</em>、不是「全部複製過去」。</p>
<h2 id="phase-1schema-對位">Phase 1：Schema 對位</h2>
<p>Splunk 跟 Elastic 的 data model 沒有 1:1 mapping、必須先建對位 spec：</p>
<table>
  <thead>
      <tr>
          <th>Splunk concept</th>
          <th>Elastic 對應</th>
          <th>對位難度</th>
          <th></th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>SPL search language</td>
          <td>KQL（簡單）/ ES</td>
          <td>QL（複雜 query、PG 14+ piped）</td>
          <td>中、語法差距大但概念對齊</td>
      </tr>
      <tr>
          <td>Index</td>
          <td>Data view（read）/ data stream（write）</td>
          <td>低、概念相同</td>
          <td></td>
      </tr>
      <tr>
          <td>CIM data model</td>
          <td>Elastic Common Schema (ECS)</td>
          <td>中、欄位命名差、有對照表（CIM→ECS open source）</td>
          <td></td>
      </tr>
      <tr>
          <td>Macros</td>
          <td>Runtime fields / transforms / ingest pipeline</td>
          <td>高、Splunk macro 是 SPL fragment、Elastic 沒對等概念</td>
          <td></td>
      </tr>
      <tr>
          <td>Lookups</td>
          <td>Enrich processors / lookup index</td>
          <td>中、邏輯對等但 lifecycle 管法不同</td>
          <td></td>
      </tr>
      <tr>
          <td>Correlation search</td>
          <td>Detection rule（KQL / EQL / Threshold / ML）</td>
          <td>中、Splunk 一條 search、Elastic 拆 rule type</td>
          <td></td>
      </tr>
      <tr>
          <td>Summary index</td>
          <td>Transform / rollup</td>
          <td>高、Splunk <code>tstats</code> summary index 概念複雜</td>
          <td></td>
      </tr>
      <tr>
          <td>Notable event</td>
          <td>Alert + signal（Security app）</td>
          <td>低、Elastic 7.x+ 已成熟</td>
          <td></td>
      </tr>
      <tr>
          <td>Saved search</td>
          <td>Saved query</td>
          <td>低</td>
          <td></td>
      </tr>
      <tr>
          <td>Dashboard</td>
          <td>Kibana dashboard</td>
          <td>中、Splunk XML/SimpleXML 跟 Kibana JSON 不可直接轉</td>
          <td></td>
      </tr>
  </tbody>
</table>
<p><strong>Field mapping 是最大坑</strong>：Splunk 自由 schema（<code>extract</code> runtime）vs Elastic 強 type ECS。Splunk 端 <code>src_ip</code> 可能是 string；Elastic 端必須 <code>source.ip</code> 是 <code>ip</code> type — 任何 ingest pipeline 都要先把 raw event 轉成 ECS 結構。</p>
<h2 id="phase-2translation-pipeline">Phase 2：Translation pipeline</h2>
<p>實務 translation 用 <em>3-tier hybrid</em>：</p>
<h3 id="tier-1-vendor-toolcover-30-50">Tier 1: vendor tool（cover 30-50%）</h3>
<p>Elastic 官方提供 <code>splunk-to-elastic</code> migration assistant（SaaS / on-prem）— 對 <em>簡單 SPL search</em> 自動轉 KQL；cover ratio 視 SPL 複雜度而定。</p>
<h3 id="tier-2-llm-assistedcover-30-40">Tier 2: LLM-assisted（cover 30-40%）</h3>
<p>對 <em>中等複雜</em> SPL（含 stats / eval / where）、用 Claude / GPT 翻譯：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">prompt template:
</span></span><span class="line"><span class="ln">2</span><span class="cl">&#34;Convert this Splunk SPL to Elastic ES|QL. Preserve detection logic. List any
</span></span><span class="line"><span class="ln">3</span><span class="cl">unmappable functions.
</span></span><span class="line"><span class="ln">4</span><span class="cl">
</span></span><span class="line"><span class="ln">5</span><span class="cl">SPL:
</span></span><span class="line"><span class="ln">6</span><span class="cl">index=auth action=login user=* | bucket _time span=5m
</span></span><span class="line"><span class="ln">7</span><span class="cl">| stats count by user, src_ip, _time | where count &gt; 10&#34;</span></span></code></pre></div><p>LLM output 必須 <em>人工 verify</em>：</p>
<ul>
<li>對相同樣本資料跑 SPL vs ES|QL、output 對齊</li>
<li>FP rate 不能 <em>惡化</em></li>
<li>Threshold / window 對等（5m window 跟 5m window 對應）</li>
</ul>
<h3 id="tier-3-manualcover-10-30">Tier 3: manual（cover 10-30%）</h3>
<p>剩下的是：</p>
<ul>
<li>含 macro 跨 SPL fragment 的 rule（macro 必須先展開或 inline）</li>
<li>含 summary index 跟 tstats 的高效能 rule</li>
<li>用 <code>transaction</code> / <code>streamstats</code> 的 stateful query</li>
</ul>
<p>這類 rule 翻譯成 KQL 邏輯後、通常 <em>效能差 5-20x</em>（Splunk summary index 是 precomputed、KQL 是 runtime）；要評估 <em>改用 Elastic transform</em> 或 <em>接受效能下降</em>。</p>
<h2 id="phase-3parallel-run">Phase 3：Parallel run</h2>
<p>雙 SIEM 同時跑是 <em>最重要的 confidence-building 階段</em>：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">                 ┌─→ Splunk ──→ alert ──┐
</span></span><span class="line"><span class="ln">2</span><span class="cl">data source ─┤                          ├─→ alert dedup ──→ SOAR / SOC
</span></span><span class="line"><span class="ln">3</span><span class="cl">                 └─→ Elastic ──→ alert ─┘</span></span></code></pre></div><p>Dedup 策略：</p>
<ul>
<li><strong>Key</strong>：<code>rule_name + event_id + timestamp_5min_bucket</code></li>
<li><strong>Window</strong>：5-10 分鐘（兩端有不同處理 latency）</li>
<li><strong>Routing</strong>：dedup 後送 SOAR、SOC 看「來自哪個 SIEM」標籤</li>
</ul>
<p>跑 4-8 週累積：</p>
<table>
  <thead>
      <tr>
          <th>指標</th>
          <th>期望</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Alert coverage 一致性</td>
          <td>Elastic 抓到 Splunk 的 95%+ 對應 alert</td>
      </tr>
      <tr>
          <td>FP rate 不惡化</td>
          <td>Elastic FP / Splunk FP ≤ 1.2（允許 20% 浮動）</td>
      </tr>
      <tr>
          <td>Detection latency 對等</td>
          <td>Elastic 端 alert 時間在 Splunk 端 ± 5 分鐘內</td>
      </tr>
      <tr>
          <td>Volume / day</td>
          <td>Alert 總數兩端對齊（10% 內）</td>
      </tr>
  </tbody>
</table>
<p>不對齊的 rule 退回 Phase 2 重新 translation；累積到 95%+ 對齊才能進 Phase 4。</p>
<h2 id="phase-4cutover--routing-切換">Phase 4：Cutover — routing 切換</h2>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">Before cutover:
</span></span><span class="line"><span class="ln">2</span><span class="cl">  Splunk → SOAR (active routing)
</span></span><span class="line"><span class="ln">3</span><span class="cl">  Elastic → SOAR (parallel, marked test)
</span></span><span class="line"><span class="ln">4</span><span class="cl">
</span></span><span class="line"><span class="ln">5</span><span class="cl">After cutover:
</span></span><span class="line"><span class="ln">6</span><span class="cl">  Splunk → ingest 持續 / alert disabled
</span></span><span class="line"><span class="ln">7</span><span class="cl">  Elastic → SOAR (active routing)</span></span></code></pre></div><p>Cutover 期間：</p>
<ol>
<li>PagerDuty / Opsgenie 端 <em>先建 Elastic integration</em>、不立刻 disable Splunk</li>
<li>切換 dedup key 的 routing priority — 同一 alert 優先取 Elastic 那條</li>
<li><strong>保留 Splunk ingest</strong> — 不立刻停、提供 fallback 半小時</li>
<li>SOC 24h 監視、無異常進入 Phase 5</li>
</ol>
<p>回退邊界：cutover 失敗（Elastic 端 alert 大量遺漏 / 延遲）→ routing 切回 Splunk、Elastic 端 alert 再標 test、回 Phase 3。回退時間 30 分鐘內。</p>
<h2 id="phase-5cleanup--不可逆階段">Phase 5：Cleanup — 不可逆階段</h2>
<p>Splunk ingest 停、license decommission、歷史資料 archive：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl"><span class="c1"># 1. 歷史 archive 到 S3（Splunk DDAS / Smart Store / 第三方）</span>
</span></span><span class="line"><span class="ln">2</span><span class="cl">splunk <span class="nb">export</span> ... <span class="p">|</span> aws s3 cp - s3://splunk-archive/
</span></span><span class="line"><span class="ln">3</span><span class="cl">
</span></span><span class="line"><span class="ln">4</span><span class="cl"><span class="c1"># 2. 確認 archive 可查（cold storage retrieve test）</span>
</span></span><span class="line"><span class="ln">5</span><span class="cl"><span class="c1"># 3. Splunk indexer disable / Splunk Cloud subscription downgrade</span></span></span></code></pre></div><p><strong>不可逆邊界</strong>：Splunk license 退掉、historical query 必須走 S3 + 重 ingest 才能跑、SLA 從即時變天級。決策關鍵：</p>
<ul>
<li>法規 retention（GDPR / SOX / HIPAA）多久</li>
<li>Incident response 需要 historical query 的頻率</li>
<li>翻譯後的歷史資料 indexable in Elastic？多數情況 ECS 跟 CIM 結構差太大、historical 不直接可查</li>
</ul>
<p>實務 default：Splunk Cloud 保留最低 tier 1 年、Elastic 接新資料；1 年後再評估 archive 策略。</p>
<h2 id="production-故障演練">Production 故障演練</h2>
<h3 id="case-1macro-跨-spl-沒對應-kql-function">Case 1：Macro 跨 SPL 沒對應 KQL function</h3>
<p><strong>徵兆</strong>：translation tool 把 macro <code>\</code>my_internal_lookup(&hellip;)`` 標 unmappable、人工翻譯後發現 macro 含 3 個巢狀 macro、共 80 行 SPL 邏輯；KQL 端拆成 5 個 runtime field + 2 個 ingest processor 才對等。</p>
<p><strong>修法</strong>：</p>
<ol>
<li><strong>Audit 階段</strong> 用 <code>splunk btool savedsearches list | grep &lt;macro&gt;</code> 找所有 macro 使用點、估翻譯成本</li>
<li><strong>Inline 策略</strong>：macro 在 5 處以下、直接 inline 到 detection rule、不重建 KQL macro</li>
<li><strong>Ingest processor 策略</strong>：macro 是 <em>資料轉換</em> 邏輯、放 Elastic ingest pipeline、不放 detection rule</li>
<li><strong>退役策略</strong>：macro 已 deprecated、不翻譯、把使用的 rule 一起退役</li>
</ol>
<h3 id="case-2time-zone-parsing-差異">Case 2：Time zone parsing 差異</h3>
<p><strong>徵兆</strong>：parallel run 階段、Splunk 跟 Elastic 對同一個 raw event 解出的 <code>_time</code> 差 8 小時；dedup key 沒對齊、雙 alert 都觸發。</p>
<p><strong>根因</strong>：Splunk <code>_time</code> 是 epoch、time zone 由 <code>props.conf</code> 端決定；Elastic ingest pipeline 用 <code>date</code> processor、time zone 預設 UTC。raw event 有 <code>Asia/Taipei</code> timestamp、Splunk 解 UTC、Elastic 解 local。</p>
<p><strong>修法</strong>：</p>
<ol>
<li><strong>Ingest pipeline 統一</strong>：所有 raw event 在 ingest 時轉 UTC、不依賴 source-side time zone</li>
<li><strong>dedup 容忍 window</strong>：dedup window 拉到 30 分鐘、cover time zone 漂移</li>
<li><strong>schema 對位 spec 明示時區處理</strong>：Phase 1 spec 要列「所有時間戳統一 UTC」</li>
</ol>
<h3 id="case-3summary-index-翻譯效能爆">Case 3：Summary index 翻譯效能爆</h3>
<p><strong>徵兆</strong>：Splunk 端 <code>tstats count from datamodel=Authentication where _time&gt;=-7d</code> 跑 2 秒、翻譯成 KQL 後 Elastic 跑 45 秒；SOC dashboard 端 timeout。</p>
<p><strong>根因</strong>：Splunk summary index 是 <em>precomputed</em>（小時 / 天聚合預先算好）、<code>tstats</code> 直接讀 summary；KQL 直接跑 search 是 <em>raw event scan</em>、效能差數量級。</p>
<p><strong>修法</strong>：</p>
<ol>
<li><strong>Elastic Transform</strong>：Elastic 端建 <em>continuous transform</em>、把 raw event 預先 aggregate 到 transform index、KQL 查 transform index、效能對等</li>
<li><strong>Rollup index</strong>（Elastic legacy）：給 metric-style data 用、deprecated 但仍可</li>
<li><strong>接受 latency</strong>：dashboard query 可接受 30s、不必精準對等 Splunk</li>
</ol>
<h3 id="case-4cutover-期間-pagerduty-dedup-key-衝突">Case 4：Cutover 期間 PagerDuty dedup key 衝突</h3>
<p><strong>徵兆</strong>：cutover 後 24h、SOC 收到雙倍 alert；PagerDuty 兩條 incident 各標 <code>splunk</code> 跟 <code>elastic</code> source、實際是同一事件。</p>
<p><strong>根因</strong>：PagerDuty 的 dedup key 用 <code>rule_name + alert_id</code>、Splunk alert_id 跟 Elastic signal_id 命名空間不同、PagerDuty 視為兩個獨立 incident。</p>
<p><strong>修法</strong>：</p>
<ol>
<li><strong>預先設計 dedup key</strong>：用 <code>rule_name + event_hash</code>、不用 SIEM 內部 ID</li>
<li><strong>PagerDuty routing rule</strong>：cutover 期間 disable Splunk source routing、不要靠 dedup</li>
<li><strong>Phase 3 parallel run 期間就測試 dedup</strong>：不要拖到 cutover 才發現</li>
</ol>
<h3 id="case-5過早-decommission-splunk歷史-incident-無法回溯">Case 5：過早 decommission Splunk、歷史 incident 無法回溯</h3>
<p><strong>徵兆</strong>：cutover 後 6 個月、發生 incident、需要回查 12 個月前的 auth log；Splunk 已 decom、Elastic 端歷史資料缺、S3 archive 無索引、4 小時找不到 evidence。</p>
<p><strong>根因</strong>：Cleanup phase 過早走、沒先做 <em>historical query rehearsal</em>；S3 archive 沒可用的索引層。</p>
<p><strong>修法</strong>：</p>
<ol>
<li><strong>預防</strong>：Phase 5 前跑 <em>5 個 historical query drill</em>、驗證 incident response 時能用</li>
<li><strong>架構</strong>：S3 archive 配 Elastic frozen tier（searchable snapshot）、6 個月 retrieve latency 接受</li>
<li><strong>法規對齊</strong>：Cleanup 時間表必須跟 compliance retention requirement 對齊、不只是 cost-driven</li>
</ol>
<h2 id="capacity--cost-對照">Capacity / cost 對照</h2>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>Splunk Enterprise / Cloud</th>
          <th>Elastic Security</th>
          <th>取捨</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Pricing model</td>
          <td>per-GB ingest（昂貴 in scale）</td>
          <td>fixed tier / data tier / per-resource</td>
          <td>Elastic 5+ TB/day 規模便宜 50-70%</td>
      </tr>
      <tr>
          <td>Ingest performance</td>
          <td>強、Splunk forwarder 成熟</td>
          <td>強、Elastic Agent / Filebeat</td>
          <td>略接近、Splunk 對 unstructured raw 略優</td>
      </tr>
      <tr>
          <td>Search performance</td>
          <td>強、SPL + summary index</td>
          <td>中、KQL runtime + transform</td>
          <td>Splunk 對複雜 query 仍領先</td>
      </tr>
      <tr>
          <td>Detection content</td>
          <td>ES content + SOC content</td>
          <td>Elastic Security 内建 detection rule + 開源</td>
          <td>兩端都有、Elastic 對 cloud-native 較強</td>
      </tr>
      <tr>
          <td>UEBA / ML</td>
          <td>ES Premium UEBA、成熟</td>
          <td>Elastic ML + 7.x+ rule type</td>
          <td>Splunk 領先、Elastic 追趕中</td>
      </tr>
      <tr>
          <td>Cloud-native</td>
          <td>Splunk Cloud（managed but proprietary）</td>
          <td>Elastic Cloud / ECK on K8s</td>
          <td>Elastic 更 K8s-friendly</td>
      </tr>
      <tr>
          <td>Lock-in</td>
          <td>高（SPL / 自家 forwarder / ES app）</td>
          <td>中（open-source core + commercial extension）</td>
          <td>Elastic 較易遷出（理論上）</td>
      </tr>
      <tr>
          <td>Total cost (5y, 10TB/day)</td>
          <td>$5-15M USD</td>
          <td>$1.5-5M USD</td>
          <td>5-3 倍差</td>
      </tr>
  </tbody>
</table>
<h2 id="整合--下一步">整合 / 下一步</h2>
<h3 id="跟-soar-整合">跟 SOAR 整合</h3>
<p><a href="/blog/backend/08-incident-response/vendors/pagerduty/" data-link-title="PagerDuty" data-link-desc="On-call / alerting 主流 SaaS、IR 平台演化">PagerDuty</a> / Tines / Splunk SOAR：</p>
<ul>
<li>cutover 期間 SOAR playbook 仍用 Splunk-shaped event、Phase 5 後改 Elastic-shaped</li>
<li>Playbook 內 SPL query 必須改寫 KQL / ES|QL、可 hybrid（短期保留 SOAR 端原 SPL 邏輯）</li>
</ul>
<h3 id="跟-case-management-整合">跟 case management 整合</h3>
<p>Jira / ServiceNow / Elastic Cases：</p>
<ul>
<li>Splunk notable → Jira ticket 用 link field 帶 <code>splunk_url</code></li>
<li>Elastic alert → Jira 用 <code>elastic_url</code></li>
<li>兩個 URL field 期間同時存在、Phase 5 後 archive</li>
</ul>
<h3 id="反向遷移elastic--splunk">反向遷移（Elastic → Splunk）</h3>
<p>結構 mirror 對稱、phase 仍 6 段、但 schema 對位方向相反：</p>
<ul>
<li>KQL → SPL 翻譯（vendor tool 對等度低、ES|QL → SPL 更困難）</li>
<li>ECS → CIM 對位</li>
<li>多數企業 <em>不會</em> 反向遷、reverse migration 多半是合規驅動（特定客戶要 Splunk）</li>
</ul>
<h3 id="下一步議題">下一步議題</h3>
<ul>
<li><strong>Multi-vendor SIEM portfolio</strong>：不選一家、Splunk + Elastic + Sentinel 同時跑、routing 邏輯按 cost / use case 切</li>
<li><strong>AI-native detection</strong>：兩家都在發展、translation 流程可能再次重來</li>
<li><strong>Compliance migration constraints</strong>：金融 / 政府客戶 SIEM migration 需通過 audit、phase 時間表會被拉長</li>
</ul>
<h2 id="相關連結">相關連結</h2>
<ul>
<li>Source vendor：<a href="/blog/backend/07-security-data-protection/vendors/splunk/" data-link-title="Splunk" data-link-desc="業界 SIEM 標準、forwarder &#43; indexer &#43; search head 架構、SPL 為核心查詢語言、ingestion-based 計費跟偵測覆蓋率的 trade-off">Splunk</a></li>
<li>Target vendor：<a href="/blog/backend/07-security-data-protection/vendors/elastic-security/" data-link-title="Elastic Security" data-link-desc="Elastic Stack 上的 SIEM &#43; EDR &#43; Cloud Security 套件、OSS 起源、KQL/EQL/Lucene/ES|QL 多查詢語言、resource-based pricing">Elastic Security</a></li>
<li>上游 chapter：<a href="/blog/backend/07-security-data-protection/detection-coverage-and-signal-governance/" data-link-title="7.13 偵測覆蓋率與訊號治理" data-link-desc="定義偵測覆蓋、訊號品質與誤報成本的治理問題">7.13 偵測覆蓋率與訊號治理</a></li>
<li>平行 deep article：<a href="/blog/backend/07-security-data-protection/vendors/splunk/risk-based-alerting/" data-link-title="Splunk Risk-Based Alerting：從 alert per rule 到 score-aggregated notable" data-link-desc="Splunk Enterprise Security 的 RBA 方法論：risk score / modifier / notable 三層 model、ES 配置 step-by-step、tuning playbook（false positive / score inflation / threshold drift / decay）、capacity 成本、跟 SOAR &#43; case management 整合">Splunk RBA</a></li>
<li>Methodology：<a href="/blog/posts/vendor-%E6%B7%B1%E5%BA%A6%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84%E5%90%8C-vendor-%E7%B3%BB%E5%88%97%E7%9A%84%E9%96%8B%E5%A0%B4%E8%BC%AA%E6%9B%BF%E9%A9%97%E8%AD%89/" data-link-title="Vendor 深度技術文章方法論的演化紀錄：同 vendor 系列的開場輪替驗證" data-link-desc="vendor overview 飽和後要寫單一功能深度文章、需要選題與結構依據時回來。這套方法論的驗證來源與 cadence variant 在高風險場景（同 vendor sub-tool 系列）的實證。">Vendor 深度技術文章的寫作方法論</a></li>
</ul>
]]></content:encoded></item><item><title>Migration Playbook 方法論的演化紀錄：Stage 0 variant 規劃把 collapse 率從 60% 降到 0%</title><link>https://tarrragon.github.io/blog/posts/migration-playbook-%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84stage-0-variant-%E8%A6%8F%E5%8A%83%E6%8A%8A-collapse-%E7%8E%87%E5%BE%9E-60-%E9%99%8D%E5%88%B0-0/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/posts/migration-playbook-%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84stage-0-variant-%E8%A6%8F%E5%8A%83%E6%8A%8A-collapse-%E7%8E%87%E5%BE%9E-60-%E9%99%8D%E5%88%B0-0/</guid><description>&lt;p>本文記錄 migration-playbook-methodology 這套寫作方法論前三輪 batch dogfood（實際寫文章驗證方法論）的演化過程（skill 已累積到六輪、本文記錄前三輪）。操作步驟維護在 &lt;code>.claude/skills/migration-playbook-methodology/&lt;/code>，本文只保留 retrospective — 每一輪跑出來學到什麼、哪些假設被推翻。&lt;/p>
&lt;h2 id="為什麼-migration-playbook-需要自己的方法論">為什麼 migration playbook 需要自己的方法論&lt;/h2>
&lt;p>Migration playbook 跟 &lt;a href="https://tarrragon.github.io/blog/posts/vendor-%E6%B7%B1%E5%BA%A6%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84%E5%90%8C-vendor-%E7%B3%BB%E5%88%97%E7%9A%84%E9%96%8B%E5%A0%B4%E8%BC%AA%E6%9B%BF%E9%A9%97%E8%AD%89/" data-link-title="Vendor 深度技術文章方法論的演化紀錄：同 vendor 系列的開場輪替驗證" data-link-desc="vendor overview 飽和後要寫單一功能深度文章、需要選題與結構依據時回來。這套方法論的驗證來源與 cadence variant 在高風險場景（同 vendor sub-tool 系列）的實證。">single feature deep article&lt;/a> 是不同 content category：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>維度&lt;/th>
 &lt;th>Deep article&lt;/th>
 &lt;th>Migration playbook&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>主題形狀&lt;/td>
 &lt;td>Single feature（pgBouncer / Vault dynamic credential）&lt;/td>
 &lt;td>Cross-vendor process（Splunk → Elastic）&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>結構&lt;/td>
 &lt;td>6-section（problem → concept → config → failure → capacity → integration）&lt;/td>
 &lt;td>6 種不同 type、各對應不同結構&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>重點章節&lt;/td>
 &lt;td>Step-by-step 配置 + 故障演練&lt;/td>
 &lt;td>視 type 不同：phased flow / parallel streams / hybrid&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>寫作週期 / 篇&lt;/td>
 &lt;td>1-2 小時&lt;/td>
 &lt;td>2-3 小時（diff dimension audit + 結構選擇 + 寫作）&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>跨篇 cadence 風險&lt;/td>
 &lt;td>中（章節 1 entry 容易 collapse）&lt;/td>
 &lt;td>高（migration 主題本質相似、主題語意 attractor「為什麼遷」明顯）&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>關鍵差異：deep article 是 single direction implementation、migration playbook 是 bidirectional comparison + process。第一輪寫了 5 篇後發現結構完全不同；嘗試套 deep article 的固定結構都只對 1 種情境適用，於是用 diff dimension audit（寫前評估 source/target 在哪些維度差異最大）選對應的結構模板（Type A-F，依主導差異維度決定）。&lt;/p>
&lt;h2 id="第一輪-batch5-篇type-a-e-浮現--cadence-collapse-35">第一輪 batch（5 篇）：Type A-E 浮現 + cadence collapse 3/5&lt;/h2>
&lt;p>第一輪寫了 5 篇跨 vendor migration playbook，每篇自然對映到一種 type（結構模板）：&lt;/p>
&lt;ul>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/splunk/migrate-to-elastic-security/" data-link-title="Splunk → Elastic Security Detection Rule Migration：6 段 phased playbook 跟 5 大踩雷" data-link-desc="從 Splunk Enterprise Security 遷到 Elastic Security 的 detection rule translation playbook：SPL ↔ KQL/ES|QL schema 對位、AI-assisted translation pipeline、parallel run 比對、cutover routing、5 個 production 踩雷（macro 沒對應 / time zone 差異 / summary index 不對位 / alert dedup key 衝突 / 過早 decommission）、capacity / cost 對照">Splunk → Elastic Security&lt;/a> — Type A phased translation&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/02-cache-redis/vendors/redis/migrate-to-dragonflydb/" data-link-title="Redis → DragonflyDB：drop-in 相容下的容量躍升 &amp;#43; 5 個踩雷" data-link-desc="DragonflyDB 號稱 Redis drop-in 替代、單機 throughput 25x、記憶體效率 30% 提升；遷移流程簡單但有 5 個 production 踩雷（RDB 版本差 / Lua 腳本不全支援 / Pub-Sub fanout 行為差異 / Cluster mode 兼容度 / Modules 不支援）、跟 Sentinel / Cluster 模式對位">Redis → DragonflyDB&lt;/a> — Type B drop-in&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/01-database/vendors/postgresql/migrate-to-aurora/" data-link-title="PostgreSQL → Aurora Migration：protocol 相容、operational 重設計" data-link-desc="Aurora 號稱 PostgreSQL-compatible 但 operational model 不同（storage decouple / cluster endpoint / instance class / 自家備份）；遷移流程是混合（protocol drop-in &amp;#43; operational phased）、5 個 production 踩雷（extension 不支援 / replication slot 不直通 / autovacuum 行為差 / IAM 認證強制 / cost model 換算）、跟 Patroni / read replica / DR 對位">PostgreSQL → Aurora&lt;/a> — Type C operational hybrid&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/04-observability/vendors/datadog/migrate-to-grafana-stack/" data-link-title="Datadog → Grafana Stack：把 $50K/month bill 拆解到 self-hosted observability" data-link-desc="Datadog 五層計費（host APM / metric / log ingest / log retention / RUM）拆解、對位 Grafana Stack（Mimir / Loki / Tempo / Grafana / Alloy）的 5 層責任；OTel-based agent migration、5 個 production 踩雷（cardinality 爆 / log volume cost / dashboard 不直接轉 / alert routing 換邏輯 / SLO definition 差異）、cost reality check">Datadog → Grafana Stack&lt;/a> — Type D parallel streams&lt;/li>
&lt;li>&lt;a href="https://tarrragon.github.io/blog/backend/03-message-queue/vendors/kafka/migrate-from-to-nats/" data-link-title="Kafka ↔ NATS：不是 migration、是 messaging paradigm 重設計" data-link-desc="Kafka 跟 NATS 不是同類產品（log-based event streaming vs subject-based messaging）、&amp;#39;migration&amp;#39; 字面上不成立；本文釐清兩家 paradigm 邊界、什麼情境真的能換、application 模式重設計的 5 個踩雷（consumer offset 觀念差 / retention model / exactly-once 假設 / schema registry 缺位 / fan-out 模式差）、跟 JetStream 對位 &amp;#43; 混合架構">Kafka ↔ NATS&lt;/a> — Type E paradigm shift&lt;/li>
&lt;/ul>
&lt;h3 id="cadence-collapse前-3-篇被動寫作全部同質化">Cadence collapse：前 3 篇被動寫作全部同質化&lt;/h3>
&lt;p>Cadence collapse 指批量寫作時、多篇文章的開場句型不自覺重複同一模式。&lt;/p></description><content:encoded><![CDATA[<p>本文記錄 migration-playbook-methodology 這套寫作方法論前三輪 batch dogfood（實際寫文章驗證方法論）的演化過程（skill 已累積到六輪、本文記錄前三輪）。操作步驟維護在 <code>.claude/skills/migration-playbook-methodology/</code>，本文只保留 retrospective — 每一輪跑出來學到什麼、哪些假設被推翻。</p>
<h2 id="為什麼-migration-playbook-需要自己的方法論">為什麼 migration playbook 需要自己的方法論</h2>
<p>Migration playbook 跟 <a href="/blog/posts/vendor-%E6%B7%B1%E5%BA%A6%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84%E5%90%8C-vendor-%E7%B3%BB%E5%88%97%E7%9A%84%E9%96%8B%E5%A0%B4%E8%BC%AA%E6%9B%BF%E9%A9%97%E8%AD%89/" data-link-title="Vendor 深度技術文章方法論的演化紀錄：同 vendor 系列的開場輪替驗證" data-link-desc="vendor overview 飽和後要寫單一功能深度文章、需要選題與結構依據時回來。這套方法論的驗證來源與 cadence variant 在高風險場景（同 vendor sub-tool 系列）的實證。">single feature deep article</a> 是不同 content category：</p>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>Deep article</th>
          <th>Migration playbook</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>主題形狀</td>
          <td>Single feature（pgBouncer / Vault dynamic credential）</td>
          <td>Cross-vendor process（Splunk → Elastic）</td>
      </tr>
      <tr>
          <td>結構</td>
          <td>6-section（problem → concept → config → failure → capacity → integration）</td>
          <td>6 種不同 type、各對應不同結構</td>
      </tr>
      <tr>
          <td>重點章節</td>
          <td>Step-by-step 配置 + 故障演練</td>
          <td>視 type 不同：phased flow / parallel streams / hybrid</td>
      </tr>
      <tr>
          <td>寫作週期 / 篇</td>
          <td>1-2 小時</td>
          <td>2-3 小時（diff dimension audit + 結構選擇 + 寫作）</td>
      </tr>
      <tr>
          <td>跨篇 cadence 風險</td>
          <td>中（章節 1 entry 容易 collapse）</td>
          <td>高（migration 主題本質相似、主題語意 attractor「為什麼遷」明顯）</td>
      </tr>
  </tbody>
</table>
<p>關鍵差異：deep article 是 single direction implementation、migration playbook 是 bidirectional comparison + process。第一輪寫了 5 篇後發現結構完全不同；嘗試套 deep article 的固定結構都只對 1 種情境適用，於是用 diff dimension audit（寫前評估 source/target 在哪些維度差異最大）選對應的結構模板（Type A-F，依主導差異維度決定）。</p>
<h2 id="第一輪-batch5-篇type-a-e-浮現--cadence-collapse-35">第一輪 batch（5 篇）：Type A-E 浮現 + cadence collapse 3/5</h2>
<p>第一輪寫了 5 篇跨 vendor migration playbook，每篇自然對映到一種 type（結構模板）：</p>
<ul>
<li><a href="/blog/backend/07-security-data-protection/vendors/splunk/migrate-to-elastic-security/" data-link-title="Splunk → Elastic Security Detection Rule Migration：6 段 phased playbook 跟 5 大踩雷" data-link-desc="從 Splunk Enterprise Security 遷到 Elastic Security 的 detection rule translation playbook：SPL ↔ KQL/ES|QL schema 對位、AI-assisted translation pipeline、parallel run 比對、cutover routing、5 個 production 踩雷（macro 沒對應 / time zone 差異 / summary index 不對位 / alert dedup key 衝突 / 過早 decommission）、capacity / cost 對照">Splunk → Elastic Security</a> — Type A phased translation</li>
<li><a href="/blog/backend/02-cache-redis/vendors/redis/migrate-to-dragonflydb/" data-link-title="Redis → DragonflyDB：drop-in 相容下的容量躍升 &#43; 5 個踩雷" data-link-desc="DragonflyDB 號稱 Redis drop-in 替代、單機 throughput 25x、記憶體效率 30% 提升；遷移流程簡單但有 5 個 production 踩雷（RDB 版本差 / Lua 腳本不全支援 / Pub-Sub fanout 行為差異 / Cluster mode 兼容度 / Modules 不支援）、跟 Sentinel / Cluster 模式對位">Redis → DragonflyDB</a> — Type B drop-in</li>
<li><a href="/blog/backend/01-database/vendors/postgresql/migrate-to-aurora/" data-link-title="PostgreSQL → Aurora Migration：protocol 相容、operational 重設計" data-link-desc="Aurora 號稱 PostgreSQL-compatible 但 operational model 不同（storage decouple / cluster endpoint / instance class / 自家備份）；遷移流程是混合（protocol drop-in &#43; operational phased）、5 個 production 踩雷（extension 不支援 / replication slot 不直通 / autovacuum 行為差 / IAM 認證強制 / cost model 換算）、跟 Patroni / read replica / DR 對位">PostgreSQL → Aurora</a> — Type C operational hybrid</li>
<li><a href="/blog/backend/04-observability/vendors/datadog/migrate-to-grafana-stack/" data-link-title="Datadog → Grafana Stack：把 $50K/month bill 拆解到 self-hosted observability" data-link-desc="Datadog 五層計費（host APM / metric / log ingest / log retention / RUM）拆解、對位 Grafana Stack（Mimir / Loki / Tempo / Grafana / Alloy）的 5 層責任；OTel-based agent migration、5 個 production 踩雷（cardinality 爆 / log volume cost / dashboard 不直接轉 / alert routing 換邏輯 / SLO definition 差異）、cost reality check">Datadog → Grafana Stack</a> — Type D parallel streams</li>
<li><a href="/blog/backend/03-message-queue/vendors/kafka/migrate-from-to-nats/" data-link-title="Kafka ↔ NATS：不是 migration、是 messaging paradigm 重設計" data-link-desc="Kafka 跟 NATS 不是同類產品（log-based event streaming vs subject-based messaging）、&#39;migration&#39; 字面上不成立；本文釐清兩家 paradigm 邊界、什麼情境真的能換、application 模式重設計的 5 個踩雷（consumer offset 觀念差 / retention model / exactly-once 假設 / schema registry 缺位 / fan-out 模式差）、跟 JetStream 對位 &#43; 混合架構">Kafka ↔ NATS</a> — Type E paradigm shift</li>
</ul>
<h3 id="cadence-collapse前-3-篇被動寫作全部同質化">Cadence collapse：前 3 篇被動寫作全部同質化</h3>
<p>Cadence collapse 指批量寫作時、多篇文章的開場句型不自覺重複同一模式。</p>
<table>
  <thead>
      <tr>
          <th>篇</th>
          <th>Variant 規劃</th>
          <th>章節 1 entry framing</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>1 Splunk → Elastic</td>
          <td>被動</td>
          <td>「為什麼遷：cost / multi-vendor / cloud-native」</td>
      </tr>
      <tr>
          <td>2 Redis → DragonflyDB</td>
          <td>被動</td>
          <td>「為什麼遷：cost / single-thread / multi-tenancy」</td>
      </tr>
      <tr>
          <td>3 Postgres → Aurora</td>
          <td>被動</td>
          <td>「為什麼遷：operational cost / HA / DR」</td>
      </tr>
      <tr>
          <td>4 Datadog → Grafana</td>
          <td>主動</td>
          <td>「$50K/month bill 拆解」</td>
      </tr>
      <tr>
          <td>5 Kafka ↔ NATS</td>
          <td>主動</td>
          <td>「『Kafka → NATS migration』字面上不成立」</td>
      </tr>
  </tbody>
</table>
<p>3/5 collapse — 主題語意 attractor「為什麼遷：X / Y / Z driver」在前 3 篇被動寫作下浮現。寫第 4 篇前發現問題、後 2 篇主動換 entry variant。</p>
<p>前 3 篇的 collapse 是 Stage 0 variant 規劃成為硬需求的直接證據。</p>
<h3 id="type-a-e-怎麼浮現">Type A-E 怎麼浮現</h3>
<p>5 篇寫完後比對結構、發現 5 篇結構完全不同，但都可以用「主導差異維度」解釋：schema 差為主 → phased translation、全 Low → drop-in、operational 差為主 → hybrid。Type A-E 從這 5 篇的歸納中浮現，第二輪 dogfood 再加上 Type F（topology re-layout）。</p>
<h2 id="第二輪-batch5-篇漏類驗證--多軸-high-實證">第二輪 batch（5 篇）：漏類驗證 + 多軸 High 實證</h2>
<p>第二輪刻意選漏類場景驗證 self-aware limitation：</p>
<ul>
<li><a href="/blog/backend/01-database/vendors/postgresql/major-version-upgrade/" data-link-title="PostgreSQL major version upgrade (14 → 17)：為什麼這篇不套 5 type migration" data-link-desc="PostgreSQL major version upgrade 是 *5 type 漏類* 的實證 — source/target 同 vendor、5 維度都 Low 但 *upgrade-specific audit* 是核心；本文結構接近 deep article methodology 的 6-section &#43; 額外 upgrade audit 段；涵蓋 pg_upgrade / logical replication / blue-green 三方法、extension 相容性、5 production 踩雷">PostgreSQL major version upgrade (14 → 17)</a> — 漏類驗證（同 vendor）</li>
<li><a href="/blog/backend/02-cache-redis/vendors/redis/cluster-resharding/" data-link-title="Redis Cluster Re-sharding：source = target，但 topology 重劃的 5 段流程" data-link-desc="Redis cluster re-sharding 是 5 type migration 漏類實證 — source / target 同 cluster、無 schema / paradigm 差、但 16384 slot 重分配是核心；本文涵蓋 4 種 re-sharding driver、slot migration 機制、redis-cli --cluster rebalance / reshard 工具、5 個 production 踩雷（cluster busy / replica lag / client cache stale / cross-slot transaction / monitor gap）">Redis cluster re-sharding</a> — 漏類驗證（topology 重劃）→ Type F 浮現</li>
<li><a href="/blog/backend/01-database/vendors/postgresql/migrate-to-cockroachdb/" data-link-title="PostgreSQL → CockroachDB：三維皆 High 的多重歸類 migration" data-link-desc="PostgreSQL → CockroachDB 是 Schema / Operational / Paradigm 三維皆 High 的 multi-axis migration、實證 [#127](/report/content-structure-by-max-diff-dimension/) 的「多重歸類跟 tie-breaking」規則；主結構走 Type E paradigm shift、Schema 差 &#43; Operational redesign 抽出獨立段；涵蓋 transaction model 重設計、SQL dialect gap、5 個 production 踩雷">PostgreSQL → CockroachDB</a> — 三維 High multi-axis 驗證</li>
<li><a href="/blog/backend/01-database/vendors/mysql/migrate-to-postgresql/" data-link-title="MySQL → PostgreSQL：從 SQL dialect diff 跑出來的 Type A 6-phase migration" data-link-desc="MySQL → PostgreSQL 是 Type A 高 schema 差 migration 的標準形態 — SQL dialect / collation / case sensitivity / replication 模型差異主導；用 pgloader / AWS DMS / 自管 dual-write 三條 path、5 個 production 踩雷（auto_increment vs SERIAL / charset 跟 collation / case sensitivity / index syntax / triggers）">MySQL → PostgreSQL</a> — Type A 標準形態（263 行）</li>
<li><a href="/blog/backend/01-database/vendors/mongodb/migrate-to-atlas/" data-link-title="MongoDB → Atlas：Atlas 不是 MongoDB &#43; managed、是另一個 product" data-link-desc="Atlas 號稱「MongoDB managed」但 operational model 完全不同（auto-scaling / VPC peering / IAM-driven access / 內建 backup / billing 模型）；本文採用 Type C operational redesign hybrid 結構、4-phase operational migration &#43; drop-in cutover、5 個 production 踩雷（連線數限制 / IP whitelist / backup retention / IAM token 過期 / billing 暴漲）">MongoDB → Atlas</a> — Type C 標準形態（349 行）</li>
</ul>
<p>Stage 0 variant 規劃從第二輪開始全面啟用，cadence collapse 從 3/5 降到 0/5。</p>
<h3 id="驗證成立的-4-項預測">驗證成立的 4 項預測</h3>
<ol>
<li><strong>5 type 漏類確認</strong>：major version upgrade + re-sharding 結構跟 5 type 完全不同</li>
<li><strong>多重歸類 + tie-breaking 規則成立</strong>：PostgreSQL → CockroachDB 三維皆 High、按主導維度走 Type E + 高維度獨立段</li>
<li><strong>Type A / Type C 標準形態仍適用</strong>：MySQL → PostgreSQL + MongoDB → Atlas 走標準模板</li>
<li><strong>Stage 0 variant 規劃硬需求</strong>：第二輪 5 篇全主動 variant、collapse 0/5</li>
</ol>
<h3 id="浮現的-3-項新議題">浮現的 3 項新議題</h3>
<ol>
<li><strong>新 audit 維度（data topology）</strong>：re-sharding 揭露 5 維度沒「topology」軸 → 擴到 6 維</li>
<li><strong>「為什麼這篇不套」是漏類文章標準 frame</strong>：major-version-upgrade + cluster-resharding 都用這個 frame 開頭</li>
<li><strong>「高維度獨立段」升級為 multi-axis migration 標準結構元素</strong></li>
</ol>
<h2 id="第三輪-batch5-篇type-f-dogfood--候選軸驗證">第三輪 batch（5 篇）：Type F dogfood + 候選軸驗證</h2>
<p>第三輪驗證 data topology audit dimension 的 self-aware limitation 4 條 tripwire：</p>
<ul>
<li><a href="/blog/backend/01-database/vendors/postgresql/partition-redesign/" data-link-title="PostgreSQL Partition Redesign：當 monthly partition 越跑越慢" data-link-desc="PostgreSQL partition redesign 是 Type F「topology re-layout」第 2 個 dogfood — 從 monthly partition 改 daily / 從 range 改 list / 從單軸改 sub-partition；6 維 audit 皆 Low &#43; topology 軸 High；涵蓋 partition 不平衡偵測、ATTACH/DETACH 線上重劃、5 個 production 踩雷、跟 partition_pruning &#43; autovacuum 整合">PostgreSQL partition redesign</a>（246 行）— Type F dogfood #2</li>
<li><a href="/blog/backend/01-database/vendors/mongodb/shard-expansion-multi-dc/" data-link-title="MongoDB Shard Expansion &#43; Multi-DC：Type F「不需要 parallel run」的 multi-region 例外" data-link-desc="MongoDB sharded cluster 加 shard &#43; 跨 DC expansion 是 Type F「topology re-layout」第 3 個 dogfood — 同時改 sharding &#43; replication topology &#43; region distribution；驗證 [#128](/report/data-topology-as-audit-dimension/) self-aware limitation 第 3 點「Type F 不需要 parallel run」claim 的例外（multi-region rollout 必須 parallel run &#43; 切流量）；涵蓋 chunk migration / replica set add member / cross-DC routing">MongoDB shard + multi-DC expansion</a>（291 行）— Type F dogfood #3 + parallel run 例外實證</li>
<li><a href="/blog/backend/07-security-data-protection/vendors/hashicorp-vault/migrate-to-aws-secrets-manager/" data-link-title="Vault → AWS Secrets Manager：「secret」不是「secret」、identity model 才是核心差異" data-link-desc="Vault → AWS Secrets Manager migration 表面是 secret store 替換、實際核心是 identity model 對位（Vault token &#43; policy vs AWS IAM &#43; resource policy）；驗證 [#128](/report/data-topology-as-audit-dimension/) self-aware limitation 提出的 identity axis 候選 — identity 是否獨立 audit 軸；5 個 production 踩雷（IAM principal 對位 / dynamic credential 對等失敗 / lease lifecycle 模型不同 / audit log 結構差 / 計費模型反轉）">Vault → AWS Secrets Manager</a>（272 行）— Identity axis 候選（45% 工作量）</li>
<li><a href="/blog/backend/01-database/vendors/dynamodb/consistency-model-optimization/" data-link-title="DynamoDB Strongly Consistent → Eventually Consistent：same protocol, different contract" data-link-desc="DynamoDB consistency model 從 strongly consistent read 改 eventually consistent read 是 50% cost 優化但風險集中在 application contract — 同 vendor / 同 protocol / 同 table / 不同 read consistency；驗證 [#128](/report/data-topology-as-audit-dimension/) self-aware limitation 提出的 consistency axis 候選；涵蓋 read pattern audit / 5 個 production 踩雷">DynamoDB consistency model optimization</a>（249 行）— Consistency axis 候選（85% 工作量）</li>
<li><a href="/blog/backend/01-database/vendors/postgresql/multi-region-gdpr-rollout/" data-link-title="PostgreSQL Multi-Region GDPR Rollout：政策驅動的 migration 屬本 methodology 嗎" data-link-desc="PostgreSQL 單 region → multi-region 同時滿足 GDPR EU residency 是 *政策驅動* 兼 *topology 變動* 兼 *operational redesign* 的多軸 migration；驗證 [#128](/report/data-topology-as-audit-dimension/) self-aware limitation 提出的 residency axis 候選 — residency 是 driver 還是獨立 audit 軸；涵蓋 logical replication 配 GDPR / 5 個 production 踩雷 / cross-region cost">PostgreSQL multi-region GDPR rollout</a>（238 行）— Residency axis 候選（40% 工作量）</li>
</ul>
<p>第三輪維持 collapse 0/5，但 Type F 分裂出 sub-type（F-cluster vs F-multi-region），框架仍在演化。</p>
<h3 id="累積-evidence">累積 evidence</h3>
<ul>
<li><strong>Type F sub-type 浮現</strong>：F-cluster（單 cluster 內、不需 parallel run）vs F-multi-region（跨 region、需 parallel run）</li>
<li><strong>3 軸候選確認可獨立</strong>：identity / consistency / residency 各帶 30-85% 獨立工作量；累積到 3-5 case / 軸後考慮升 audit 7-9 維</li>
<li><strong>Residency 是 cross-cutting constraint</strong>：不只是 driver、反向約束 topology + operational + application</li>
</ul>
<h2 id="三輪對照方法論的演化軌跡">三輪對照：方法論的演化軌跡</h2>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>第一輪（5 篇）</th>
          <th>第二輪（5 篇）</th>
          <th>第三輪（5 篇）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Type 集合</td>
          <td>A-E（5 type）</td>
          <td>A-F（+Type F）</td>
          <td>A-F + sub-type</td>
      </tr>
      <tr>
          <td>Audit 維度</td>
          <td>5 維</td>
          <td>6 維（+topology）</td>
          <td>6 維 + 3 候選軸</td>
      </tr>
      <tr>
          <td>Cadence collapse</td>
          <td>3/5 (60%)</td>
          <td>0/5 (0%)</td>
          <td>0/5 (0%)</td>
      </tr>
      <tr>
          <td>Variant 規劃</td>
          <td>被動 → 主動</td>
          <td>全主動</td>
          <td>全主動</td>
      </tr>
      <tr>
          <td>總行數</td>
          <td>~1,200</td>
          <td>1,389</td>
          <td>1,292</td>
      </tr>
      <tr>
          <td>單篇行數</td>
          <td>200-300</td>
          <td>263-349</td>
          <td>238-288</td>
      </tr>
  </tbody>
</table>
<p>關鍵轉折是第一輪到第二輪：後續批次未再觀察到 collapse。</p>
<h2 id="self-aware-limitation">Self-aware limitation</h2>
<p>本 methodology 從 15 篇 migration playbook dogfood 抽出 6 type；已知 limitation：</p>
<ul>
<li><strong>6 type 非窮盡</strong>：major version upgrade / merger consolidation 等情境不在 6 type 內</li>
<li><strong>多重歸類常見</strong>：實際 source/target 配對很少完美對映單一 type</li>
<li><strong>「主導維度」需 judgment</strong>：優先序是 audience-dependent heuristic、不是 universal 規則</li>
<li><strong>Collapse 歸因有共變因素</strong>：第二輪以後 collapse 消失，但同時作者已有第一輪經驗、且知道自己在測量 cadence（Hawthorne effect）。Stage 0 variant 規劃是介入手段之一，無法完全隔離歸因。N=5 的二項信賴區間也無法排除偶然</li>
<li><strong>候選軸未 commit</strong>：identity / consistency / residency 各 N=1、累積到 3-5 case / 軸後才考慮升維</li>
</ul>
<p>本 methodology 接受 evolution、不假裝穩定。</p>
<h2 id="相關連結">相關連結</h2>
<ul>
<li>Migration Playbook Methodology skill（<code>.claude/skills/migration-playbook-methodology/</code>）— 操作步驟（6 維 audit、6 type、Stage 0 variant、4-reviewer）</li>
<li><a href="/blog/posts/vendor-%E6%B7%B1%E5%BA%A6%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0%E6%96%B9%E6%B3%95%E8%AB%96%E7%9A%84%E6%BC%94%E5%8C%96%E7%B4%80%E9%8C%84%E5%90%8C-vendor-%E7%B3%BB%E5%88%97%E7%9A%84%E9%96%8B%E5%A0%B4%E8%BC%AA%E6%9B%BF%E9%A9%97%E8%AD%89/" data-link-title="Vendor 深度技術文章方法論的演化紀錄：同 vendor 系列的開場輪替驗證" data-link-desc="vendor overview 飽和後要寫單一功能深度文章、需要選題與結構依據時回來。這套方法論的驗證來源與 cadence variant 在高風險場景（同 vendor sub-tool 系列）的實證。">Vendor deep article methodology</a> — sibling、處理 single feature implementation</li>
<li><a href="/blog/posts/case-first--agent-team-review%E6%95%99%E5%AD%B8%E5%85%A7%E5%AE%B9%E7%9A%84%E7%94%9F%E7%94%A2%E6%B5%81%E7%A8%8B/" data-link-title="Case-First &#43; Agent Team Review：教學內容的生產流程" data-link-desc="Case-first &#43; agent team review 的教學內容生產流程：讀案例庫抽 findings、專責 reviewer 平行審查、polish pass 收系統性殘留。防止通用 best practice 被誤包裝成案例揭露。">Case-first Agent Team Review Workflow</a> — 教學模組級批次寫作流程</li>
<li><a href="/blog/report/single-function-per-article-sop-vs-retrospective/" data-link-title="一篇文章只承擔一種功能：SOP 跟 retrospective 混寫兩邊都做不好" data-link-desc="文章同時塞操作步驟（SOP）和批次驗證紀錄（retrospective）時，機器讀者找不到可執行的步驟、人類讀者不知道哪段是給自己看的。">#199 一篇文章只承擔一種功能</a> — 本文精簡的依據</li>
</ul>
]]></content:encoded></item></channel></rss>