<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Rotation on Tarragon</title><link>https://tarrragon.github.io/blog/tags/rotation/</link><description>Recent content in Rotation on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Fri, 26 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/rotation/index.xml" rel="self" type="application/rss+xml"/><item><title>Access Key 輪替手冊</title><link>https://tarrragon.github.io/blog/infra/02-identity-credentials/access-key-rotation-playbook/</link><pubDate>Fri, 26 Jun 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/infra/02-identity-credentials/access-key-rotation-playbook/</guid><description>&lt;p>長期 access key 的風險隨時間單調上升——每多存在一天，被複製到新地方的機率就多一分，而輪替的難度也跟著副本數量增長。輪替不是「發現外洩才做」的緊急動作，而是定期執行的維運操作。本篇是操作手冊，從盤點開始、逐步完成輪替、最後建立自動化。&lt;/p>
&lt;h2 id="盤點帳號裡有哪些-key">盤點：帳號裡有哪些 key&lt;/h2>
&lt;p>第一步是拿到帳號內所有 IAM user 的 access key 清單。AWS 的 credential report 是這個問題的標準資料來源，它列出每個 user 的 key 狀態、建立時間與最後使用時間。&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl">aws iam generate-credential-report
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">2&lt;/span>&lt;span class="cl">aws iam get-credential-report &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">3&lt;/span>&lt;span class="cl">&lt;span class="se">&lt;/span> --query &lt;span class="s1">&amp;#39;Content&amp;#39;&lt;/span> --output text &lt;span class="p">|&lt;/span> base64 -d &amp;gt; credential-report.csv&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>產出的 CSV 包含每個 IAM user 的兩把 key（access_key_1、access_key_2）各自的狀態。關注的欄位：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>欄位&lt;/th>
 &lt;th>用途&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;code>user&lt;/code>&lt;/td>
 &lt;td>key 的擁有者&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;code>access_key_1_active&lt;/code>&lt;/td>
 &lt;td>key 是否啟用&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;code>access_key_1_last_used_date&lt;/code>&lt;/td>
 &lt;td>最後使用時間——長期未使用代表可能是遺棄的 key&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;code>access_key_1_last_rotated&lt;/code>&lt;/td>
 &lt;td>建立或上次輪替的時間&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>用 csvkit 或試算表打開這份報告，按 &lt;code>access_key_1_last_rotated&lt;/code> 排序，最舊的 key 排最前面。超過 90 天未輪替的 key 列為第一批處理對象。&lt;/p>
&lt;p>以下腳本使用 gawk 的 &lt;code>systime()&lt;/code> 函式。如果系統的 awk 是 mawk（Ubuntu 預設），改用 &lt;code>gawk&lt;/code> 或用 &lt;code>date&lt;/code> 指令替代時間計算。&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-bash" data-lang="bash">&lt;span class="line">&lt;span class="ln"> 1&lt;/span>&lt;span class="cl">&lt;span class="c1"># 快速列出所有啟用中、超過 90 天的 key&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 2&lt;/span>&lt;span class="cl">aws iam list-users --query &lt;span class="s1">&amp;#39;Users[].UserName&amp;#39;&lt;/span> --output text &lt;span class="p">|&lt;/span> tr &lt;span class="s1">&amp;#39;\t&amp;#39;&lt;/span> &lt;span class="s1">&amp;#39;\n&amp;#39;&lt;/span> &lt;span class="p">|&lt;/span> &lt;span class="k">while&lt;/span> &lt;span class="nb">read&lt;/span> user&lt;span class="p">;&lt;/span> &lt;span class="k">do&lt;/span>
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 3&lt;/span>&lt;span class="cl"> aws iam list-access-keys --user-name &lt;span class="s2">&amp;#34;&lt;/span>&lt;span class="nv">$user&lt;/span>&lt;span class="s2">&amp;#34;&lt;/span> &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 4&lt;/span>&lt;span class="cl">&lt;span class="se">&lt;/span> --query &lt;span class="s2">&amp;#34;AccessKeyMetadata[?Status==&amp;#39;Active&amp;#39;].[UserName,AccessKeyId,CreateDate]&amp;#34;&lt;/span> &lt;span class="se">\
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 5&lt;/span>&lt;span class="cl">&lt;span class="se">&lt;/span> --output text
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 6&lt;/span>&lt;span class="cl">&lt;span class="k">done&lt;/span> &lt;span class="p">|&lt;/span> awk -F&lt;span class="s1">&amp;#39;\t&amp;#39;&lt;/span> &lt;span class="s1">&amp;#39;{
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 7&lt;/span>&lt;span class="cl">&lt;span class="s1"> cmd = &amp;#34;date -d \&amp;#34;&amp;#34; $3 &amp;#34;\&amp;#34; +%s 2&amp;gt;/dev/null || date -jf \&amp;#34;%Y-%m-%dT%H:%M:%S+00:00\&amp;#34; \&amp;#34;&amp;#34; $3 &amp;#34;\&amp;#34; +%s&amp;#34;
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 8&lt;/span>&lt;span class="cl">&lt;span class="s1"> cmd | getline created; close(cmd)
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln"> 9&lt;/span>&lt;span class="cl">&lt;span class="s1"> age = (systime() - created) / 86400
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">10&lt;/span>&lt;span class="cl">&lt;span class="s1"> if (age &amp;gt; 90) printf &amp;#34;%s\t%s\t%.0f days\n&amp;#34;, $1, $2, age
&lt;/span>&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">11&lt;/span>&lt;span class="cl">&lt;span class="s1">}&amp;#39;&lt;/span>&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;h2 id="識別每把-key-的用途">識別每把 key 的用途&lt;/h2>
&lt;p>知道 key 存在之後，下一個問題是「這把 key 用在哪裡」。credential report 只告訴你 key 最後被用來呼叫什麼 service（&lt;code>access_key_1_last_used_service&lt;/code>），但不告訴你它被存放在哪裡。&lt;/p>
&lt;p>用途識別需要交叉比對多個來源：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>可能的存放位置&lt;/th>
 &lt;th>檢查方式&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>CI 環境變數（GitHub Actions）&lt;/td>
 &lt;td>repo Settings → Secrets and variables → Actions&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>CI 環境變數（GitLab CI）&lt;/td>
 &lt;td>repo Settings → CI/CD → Variables&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>EC2 instance 的 user data&lt;/td>
 &lt;td>&lt;code>aws ec2 describe-instance-attribute --attribute userData&lt;/code>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Lambda 環境變數&lt;/td>
 &lt;td>&lt;code>aws lambda get-function-configuration --function-name NAME&lt;/code>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>SSM Parameter Store&lt;/td>
 &lt;td>&lt;code>aws ssm get-parameters-by-path --path / --recursive&lt;/code>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>開發者筆電&lt;/td>
 &lt;td>&lt;code>~/.aws/credentials&lt;/code> — 需要口頭確認&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>程式碼 repo&lt;/td>
 &lt;td>&lt;code>git log --all -p | grep AKIA&lt;/code> — AKIA 是 access key 的固定前綴&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Slack / email 歷史&lt;/td>
 &lt;td>無法自動掃描，靠團隊回報&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>對每把要輪替的 key，在以上位置逐一確認。找不到用途的 key 可以先停用觀察（而非直接刪除），停用後如果有服務壞了就知道它用在哪裡。&lt;/p></description><content:encoded><![CDATA[<p>長期 access key 的風險隨時間單調上升——每多存在一天，被複製到新地方的機率就多一分，而輪替的難度也跟著副本數量增長。輪替不是「發現外洩才做」的緊急動作，而是定期執行的維運操作。本篇是操作手冊，從盤點開始、逐步完成輪替、最後建立自動化。</p>
<h2 id="盤點帳號裡有哪些-key">盤點：帳號裡有哪些 key</h2>
<p>第一步是拿到帳號內所有 IAM user 的 access key 清單。AWS 的 credential report 是這個問題的標準資料來源，它列出每個 user 的 key 狀態、建立時間與最後使用時間。</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl">aws iam generate-credential-report
</span></span><span class="line"><span class="ln">2</span><span class="cl">aws iam get-credential-report <span class="se">\
</span></span></span><span class="line"><span class="ln">3</span><span class="cl"><span class="se"></span>  --query <span class="s1">&#39;Content&#39;</span> --output text <span class="p">|</span> base64 -d &gt; credential-report.csv</span></span></code></pre></div><p>產出的 CSV 包含每個 IAM user 的兩把 key（access_key_1、access_key_2）各自的狀態。關注的欄位：</p>
<table>
  <thead>
      <tr>
          <th>欄位</th>
          <th>用途</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><code>user</code></td>
          <td>key 的擁有者</td>
      </tr>
      <tr>
          <td><code>access_key_1_active</code></td>
          <td>key 是否啟用</td>
      </tr>
      <tr>
          <td><code>access_key_1_last_used_date</code></td>
          <td>最後使用時間——長期未使用代表可能是遺棄的 key</td>
      </tr>
      <tr>
          <td><code>access_key_1_last_rotated</code></td>
          <td>建立或上次輪替的時間</td>
      </tr>
  </tbody>
</table>
<p>用 csvkit 或試算表打開這份報告，按 <code>access_key_1_last_rotated</code> 排序，最舊的 key 排最前面。超過 90 天未輪替的 key 列為第一批處理對象。</p>
<p>以下腳本使用 gawk 的 <code>systime()</code> 函式。如果系統的 awk 是 mawk（Ubuntu 預設），改用 <code>gawk</code> 或用 <code>date</code> 指令替代時間計算。</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln"> 1</span><span class="cl"><span class="c1"># 快速列出所有啟用中、超過 90 天的 key</span>
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">aws iam list-users --query <span class="s1">&#39;Users[].UserName&#39;</span> --output text <span class="p">|</span> tr <span class="s1">&#39;\t&#39;</span> <span class="s1">&#39;\n&#39;</span> <span class="p">|</span> <span class="k">while</span> <span class="nb">read</span> user<span class="p">;</span> <span class="k">do</span>
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">  aws iam list-access-keys --user-name <span class="s2">&#34;</span><span class="nv">$user</span><span class="s2">&#34;</span> <span class="se">\
</span></span></span><span class="line"><span class="ln"> 4</span><span class="cl"><span class="se"></span>    --query <span class="s2">&#34;AccessKeyMetadata[?Status==&#39;Active&#39;].[UserName,AccessKeyId,CreateDate]&#34;</span> <span class="se">\
</span></span></span><span class="line"><span class="ln"> 5</span><span class="cl"><span class="se"></span>    --output text
</span></span><span class="line"><span class="ln"> 6</span><span class="cl"><span class="k">done</span> <span class="p">|</span> awk -F<span class="s1">&#39;\t&#39;</span> <span class="s1">&#39;{
</span></span></span><span class="line"><span class="ln"> 7</span><span class="cl"><span class="s1">  cmd = &#34;date -d \&#34;&#34; $3 &#34;\&#34; +%s 2&gt;/dev/null || date -jf \&#34;%Y-%m-%dT%H:%M:%S+00:00\&#34; \&#34;&#34; $3 &#34;\&#34; +%s&#34;
</span></span></span><span class="line"><span class="ln"> 8</span><span class="cl"><span class="s1">  cmd | getline created; close(cmd)
</span></span></span><span class="line"><span class="ln"> 9</span><span class="cl"><span class="s1">  age = (systime() - created) / 86400
</span></span></span><span class="line"><span class="ln">10</span><span class="cl"><span class="s1">  if (age &gt; 90) printf &#34;%s\t%s\t%.0f days\n&#34;, $1, $2, age
</span></span></span><span class="line"><span class="ln">11</span><span class="cl"><span class="s1">}&#39;</span></span></span></code></pre></div><h2 id="識別每把-key-的用途">識別每把 key 的用途</h2>
<p>知道 key 存在之後，下一個問題是「這把 key 用在哪裡」。credential report 只告訴你 key 最後被用來呼叫什麼 service（<code>access_key_1_last_used_service</code>），但不告訴你它被存放在哪裡。</p>
<p>用途識別需要交叉比對多個來源：</p>
<table>
  <thead>
      <tr>
          <th>可能的存放位置</th>
          <th>檢查方式</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>CI 環境變數（GitHub Actions）</td>
          <td>repo Settings → Secrets and variables → Actions</td>
      </tr>
      <tr>
          <td>CI 環境變數（GitLab CI）</td>
          <td>repo Settings → CI/CD → Variables</td>
      </tr>
      <tr>
          <td>EC2 instance 的 user data</td>
          <td><code>aws ec2 describe-instance-attribute --attribute userData</code></td>
      </tr>
      <tr>
          <td>Lambda 環境變數</td>
          <td><code>aws lambda get-function-configuration --function-name NAME</code></td>
      </tr>
      <tr>
          <td>SSM Parameter Store</td>
          <td><code>aws ssm get-parameters-by-path --path / --recursive</code></td>
      </tr>
      <tr>
          <td>開發者筆電</td>
          <td><code>~/.aws/credentials</code> — 需要口頭確認</td>
      </tr>
      <tr>
          <td>程式碼 repo</td>
          <td><code>git log --all -p | grep AKIA</code> — AKIA 是 access key 的固定前綴</td>
      </tr>
      <tr>
          <td>Slack / email 歷史</td>
          <td>無法自動掃描，靠團隊回報</td>
      </tr>
  </tbody>
</table>
<p>對每把要輪替的 key，在以上位置逐一確認。找不到用途的 key 可以先停用觀察（而非直接刪除），停用後如果有服務壞了就知道它用在哪裡。</p>
<h2 id="輪替步驟五步流程">輪替步驟：五步流程</h2>
<p>輪替一把 key 的標準流程分五步，順序不能跳：</p>
<h3 id="第一步建立新-key">第一步：建立新 key</h3>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl">aws iam create-access-key --user-name deploy-bot</span></span></code></pre></div><p>輸出會包含新的 AccessKeyId 和 SecretAccessKey。SecretAccessKey 只在這一刻顯示一次，存進密碼管理器或 Secrets Manager，不要貼在 Slack 或 email 裡。</p>
<p>一個 IAM user 最多同時有兩把 key。如果已經有兩把，需要先刪除一把不用的才能建新的。</p>
<h3 id="第二步更新所有消費者">第二步：更新所有消費者</h3>
<p>把新 key 部署到上一節識別出的所有存放位置。CI 變數、Lambda 環境變數、SSM Parameter Store、開發者的 <code>~/.aws/credentials</code> 都要同步更新。</p>
<p>每更新一個消費者就做一次功能驗證——CI 跑一次 pipeline、Lambda 觸發一次、開發者跑一次 <code>aws sts get-caller-identity</code> 確認新 key 能用。</p>
<h3 id="第三步驗證新-key-生效">第三步：驗證新 key 生效</h3>
<p>所有消費者更新完後，等待一個完整的業務週期（至少 24 小時），確認沒有任何服務還在用舊 key。檢查方式是看舊 key 的 <code>LastUsedDate</code> 有沒有在更新之後還被使用：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl">aws iam get-access-key-last-used --access-key-id AKIAOLD12345</span></span></code></pre></div><p>如果 <code>LastUsedDate</code> 在你更新消費者之後仍有新的使用紀錄，代表有漏網的消費者還在用舊 key。</p>
<h3 id="第四步停用舊-key">第四步：停用舊 key</h3>
<p>確認無殘留使用後，停用（不是刪除）舊 key：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl">aws iam update-access-key <span class="se">\
</span></span></span><span class="line"><span class="ln">2</span><span class="cl"><span class="se"></span>  --user-name deploy-bot <span class="se">\
</span></span></span><span class="line"><span class="ln">3</span><span class="cl"><span class="se"></span>  --access-key-id AKIAOLD12345 <span class="se">\
</span></span></span><span class="line"><span class="ln">4</span><span class="cl"><span class="se"></span>  --status Inactive</span></span></code></pre></div><p>停用是安全的中間狀態——用到這把 key 的服務會開始報 <code>InvalidClientTokenId</code> 錯誤，但 key 還在、可以隨時重新啟用。如果停用後有意料之外的服務壞了，重新啟用就能立刻恢復。</p>
<h3 id="第五步寬限期後刪除">第五步：寬限期後刪除</h3>
<p>停用後保持 7-14 天的寬限期。這段時間是「如果有漏掉的消費者」的安全網。寬限期內無異常，刪除：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl">aws iam delete-access-key <span class="se">\
</span></span></span><span class="line"><span class="ln">2</span><span class="cl"><span class="se"></span>  --user-name deploy-bot <span class="se">\
</span></span></span><span class="line"><span class="ln">3</span><span class="cl"><span class="se"></span>  --access-key-id AKIAOLD12345</span></span></code></pre></div><p>刪除後不可回復。如果有服務還在用這把 key，只能建一把新 key 然後去更新那個服務。</p>
<h2 id="自動化輪替secrets-manager">自動化輪替：Secrets Manager</h2>
<p>手動輪替的瓶頸在「找到所有消費者」這一步。如果 key 的消費者都從 Secrets Manager 讀取（而非各自存一份副本），輪替就簡化成「在 Secrets Manager 裡更新值」——所有消費者下次讀取時自動拿到新 key。</p>
<p>Secrets Manager 支援自動輪替：設定一個 Lambda function 作為 rotation function，它負責建新 key → 更新 secret value → 停用舊 key 的全流程。</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-hcl" data-lang="hcl"><span class="line"><span class="ln"> 1</span><span class="cl"><span class="k">resource</span> <span class="s2">&#34;aws_secretsmanager_secret&#34; &#34;deploy_key&#34;</span> {
</span></span><span class="line"><span class="ln"> 2</span><span class="cl"><span class="n">  name</span> <span class="o">=</span> <span class="s2">&#34;prod/deploy-bot/access-key&#34;</span>
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">}
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">
</span></span><span class="line"><span class="ln"> 5</span><span class="cl"><span class="k">resource</span> <span class="s2">&#34;aws_secretsmanager_secret_rotation&#34; &#34;deploy_key&#34;</span> {
</span></span><span class="line"><span class="ln"> 6</span><span class="cl"><span class="n">  secret_id</span>           <span class="o">=</span> <span class="k">aws_secretsmanager_secret</span><span class="p">.</span><span class="k">deploy_key</span><span class="p">.</span><span class="k">id</span>
</span></span><span class="line"><span class="ln"> 7</span><span class="cl"><span class="n">  rotation_lambda_arn</span> <span class="o">=</span> <span class="k">aws_lambda_function</span><span class="p">.</span><span class="k">key_rotator</span><span class="p">.</span><span class="k">arn</span>
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">  <span class="k">rotation_rules</span> {
</span></span><span class="line"><span class="ln">10</span><span class="cl"><span class="n">    automatically_after_days</span> <span class="o">=</span> <span class="m">90</span>
</span></span><span class="line"><span class="ln">11</span><span class="cl">  }
</span></span><span class="line"><span class="ln">12</span><span class="cl">}</span></span></code></pre></div><p>自動輪替的前提是所有消費者都改成從 Secrets Manager 讀 key，而非從環境變數或設定檔。這個前提本身就是一次 migration——跟手動輪替的固定成本（盤點 + 更新 + 驗證）相比，migration 的一次性成本更高，但之後的每次輪替接近零成本。</p>
<p>判斷該不該投入自動化的依據是 key 的數量和輪替頻率。3 把 key、每季輪替一次，手動流程 2-3 小時可以完成，自動化的 ROI 不高。10 把以上、或合規要求 30 天輪替，手動已經吃掉固定的工程師時間，自動化的投入才有回報。</p>
<h2 id="key-age-監控">Key age 監控</h2>
<p>輪替做完不代表可以不管——如果沒有監控，三個月後又會回到「不知道有幾把超齡的 key」的狀態。</p>
<p>最低成本的監控是一條定期跑的 check，掃描所有 key 的年齡並在超過閾值時告警：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl"><span class="c1"># 列出所有超過 90 天的 active key（用 AWS Config 規則更可靠）</span>
</span></span><span class="line"><span class="ln">2</span><span class="cl">aws configservice put-config-rule --config-rule <span class="s1">&#39;{
</span></span></span><span class="line"><span class="ln">3</span><span class="cl"><span class="s1">  &#34;ConfigRuleName&#34;: &#34;access-keys-rotated&#34;,
</span></span></span><span class="line"><span class="ln">4</span><span class="cl"><span class="s1">  &#34;Source&#34;: {
</span></span></span><span class="line"><span class="ln">5</span><span class="cl"><span class="s1">    &#34;Owner&#34;: &#34;AWS&#34;,
</span></span></span><span class="line"><span class="ln">6</span><span class="cl"><span class="s1">    &#34;SourceIdentifier&#34;: &#34;ACCESS_KEYS_ROTATED&#34;
</span></span></span><span class="line"><span class="ln">7</span><span class="cl"><span class="s1">  },
</span></span></span><span class="line"><span class="ln">8</span><span class="cl"><span class="s1">  &#34;InputParameters&#34;: &#34;{\&#34;maxAccessKeyAge\&#34;:\&#34;90\&#34;}&#34;
</span></span></span><span class="line"><span class="ln">9</span><span class="cl"><span class="s1">}&#39;</span></span></span></code></pre></div><p>AWS Config 的 <code>ACCESS_KEYS_ROTATED</code> managed rule 會持續掃描所有 IAM user 的 key age，超過設定天數的標記為 non-compliant。把 Config 的 non-compliant 事件接到 SNS → Slack 或 email，就有了持續的 key 超齡告警。</p>
<p>Prowler 也提供 key age 檢查（<code>prowler aws --checks access_key_1_rotated</code>），適合當一次性掃描工具。Config rule 適合持續監控。</p>
<p>管理層報告可以用 Config 的 compliance dashboard：compliant key 數 / 總 key 數 = key rotation 覆蓋率，這個百分比適合放進月報。</p>
<p>IAM Access Analyzer 的 unused access 功能（需啟用 analyzer）可以持續掃描帳號內未使用的 key 和 permission，跟 Config rule 互補——Config 看 key age，Access Analyzer 看 key 是否被使用。兩者搭配可以同時回答「這把 key 多久沒輪替」和「這把 key 有沒有在用」。</p>
<h2 id="跨分類引用">跨分類引用</h2>
<ul>
<li>→ <a href="/blog/infra/02-identity-credentials/iam-oidc-privilege-boundary/" data-link-title="身分與憑證地基 — IAM 模型、OIDC 短期憑證與權限邊界設計" data-link-desc="IAM 的 identity / policy / role 三元件、最小權限的持續收斂、用 OIDC 取代長期 access key，以及 SCP 與 Permissions Boundary 的環境隔離">身分與憑證地基</a>：access key 風險的系統性分析、OIDC 作為長期 key 的替代方案</li>
<li>→ <a href="/blog/infra/02-identity-credentials/team-access-management/" data-link-title="團隊權限分級與存取管理" data-link-desc="用 admin / operator / viewer 三級劃分團隊成員的雲端操作權限，設計臨時提權流程、定期 access review 節奏，以及 contractor 與外部 vendor 的存取邊界">團隊權限分級與存取管理</a>：離職時的 key 撤銷流程</li>
<li>→ <a href="/blog/infra/08-governance-habits/tagging-secrets/" data-link-title="Tagging 規範與 Secrets 不進 code" data-link-desc="tag 讓資源可盤點、可清理、可歸屬；密鑰存在專用服務裡而非 code 或 state，兩者都屬於 day-1 就該立的治理地基">治理好習慣</a>：secret 的儲存與引用紀律</li>
</ul>
]]></content:encoded></item><item><title>Shared Secret 安全輪替設計：雙密過渡期、自動化與緊急流程</title><link>https://tarrragon.github.io/blog/work-log/shared-secret-%E5%AE%89%E5%85%A8%E8%BC%AA%E6%9B%BF%E8%A8%AD%E8%A8%88%E9%9B%99%E5%AF%86%E9%81%8E%E6%B8%A1%E6%9C%9F%E8%87%AA%E5%8B%95%E5%8C%96%E8%88%87%E7%B7%8A%E6%80%A5%E6%B5%81%E7%A8%8B/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/work-log/shared-secret-%E5%AE%89%E5%85%A8%E8%BC%AA%E6%9B%BF%E8%A8%AD%E8%A8%88%E9%9B%99%E5%AF%86%E9%81%8E%E6%B8%A1%E6%9C%9F%E8%87%AA%E5%8B%95%E5%8C%96%E8%88%87%E7%B7%8A%E6%80%A5%E6%B5%81%E7%A8%8B/</guid><description>&lt;h2 id="shared-secret-rotation-這篇要解決什麼">Shared Secret Rotation 這篇要解決什麼&lt;/h2>
&lt;p>Shared Secret rotation 的核心責任是讓 credential 換新時維持可用性、可追蹤性與可撤銷性。它表面上像是一行 SQL update，實際上牽涉 server 與多個 client 的切換時序：&lt;/p>
&lt;ul>
&lt;li>兩邊不同時切、就斷線&lt;/li>
&lt;li>多 client 場景下、總有一兩個沒升級&lt;/li>
&lt;li>緊急洩漏要立即撤換、同時控制服務中斷範圍&lt;/li>
&lt;li>Rotation 中途失敗、舊新 secret 都不通&lt;/li>
&lt;/ul>
&lt;p>這些是維運層的真實痛點。只說「定期 rotate your secret」只能描述目標，還需要雙密期、測試、監控、通知與回退流程，才能把 rotation 變成可執行的操作契約。&lt;/p>
&lt;p>本文聚焦三件事：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>雙密過渡期&lt;/strong>：怎麼讓 client 可以在任意時點切換、不會斷線&lt;/li>
&lt;li>&lt;strong>自動化工具&lt;/strong>：AWS Secrets Manager / HashiCorp Vault / GCP Secret Manager 各自的 rotation 機制&lt;/li>
&lt;li>&lt;strong>緊急 vs 定期&lt;/strong>：兩種流程的差異、何時用哪個&lt;/li>
&lt;/ol>
&lt;blockquote>
&lt;p>&lt;strong>本文位置&lt;/strong>：本文是 &lt;a href="https://tarrragon.github.io/blog/work-log/api-%E8%AA%8D%E8%AD%89%E7%9A%84%E4%B8%89%E5%B1%A4%E4%BF%A1%E4%BB%BB%E9%82%8A%E7%95%8C%E4%BD%BF%E7%94%A8%E8%80%85%E7%B3%BB%E7%B5%B1%E8%B7%A8%E7%B3%BB%E7%B5%B1-provisioning/" data-link-title="API 認證的三層信任邊界：使用者、系統、跨系統 Provisioning" data-link-desc="API 認證的信任邊界分層（Bearer Token / Shared Secret / Provisioning）：各層的洩漏後果與撤銷方式，以及混用造成的設計失效模式。">API 認證的三層信任邊界&lt;/a> Layer 2 的深入篇。主文聚焦「為什麼系統間要獨立 credential」、本文聚焦「Shared Secret 輪替的工程實務」。&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="rotation-解決什麼威脅">Rotation 解決什麼威脅&lt;/h2>
&lt;p>Rotation 是縮短 secret 暴露窗與清理殘留 access 的 lifecycle 控制。它降低三種具體威脅：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>威脅&lt;/th>
 &lt;th>Rotation 怎麼緩解&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;strong>未察覺的洩漏&lt;/strong>&lt;/td>
 &lt;td>Secret 可能已被外洩、定期換能限制攻擊者使用的時間窗&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>離職員工殘留 access&lt;/strong>&lt;/td>
 &lt;td>員工離職後系統 access 沒撤徹底、rotation 把該員工知道的 secret 變廢&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;strong>長期暴露的 metadata&lt;/strong>&lt;/td>
 &lt;td>Secret 越久、log / backup / git history 留存的副本越多&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>Rotation 本身有成本與風險，切換設計不完整時會造成斷線。所以實務目標是「在切換可控的前提下，選一個能接受的頻率」。&lt;/p>
&lt;p>常見定期頻率：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>業界場景&lt;/th>
 &lt;th>典型頻率&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>一般 SaaS&lt;/td>
 &lt;td>90 天 / 180 天&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>金融、醫療&lt;/td>
 &lt;td>30 天 / 90 天&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>高敏感（國防、政府）&lt;/td>
 &lt;td>7 天 / 14 天、或事件觸發&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>純內部、低風險&lt;/td>
 &lt;td>半年 / 一年、或永不 rotate&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;blockquote>
&lt;p>&lt;strong>頻率取決於威脅模型與操作能力&lt;/strong>：NIST SP 800-63B 對多數場景認可 30-90 天足夠、過於激進的 rotation 反而提高出錯機率。7-14 天適用於合規條款明文要求或私鑰可硬體保護的場景；多數 SaaS 可以停在 30-180 天區間。&lt;/p>&lt;/blockquote>
&lt;p>「事件觸發才換」也有合理情境。純內部 cron job、secret 外流管道少、rotation 成本大於風險時，可以選擇以事件觸發取代固定排程；重點是留下 owner、inventory 與重新評估條件。&lt;/p>
&lt;hr>
&lt;h2 id="核心機制雙密過渡期dual-secret-rollover">核心機制：雙密過渡期（Dual-secret Rollover）&lt;/h2>
&lt;h3 id="直接-atomic-切換的失效點">直接 atomic 切換的失效點&lt;/h3>
&lt;p>最直覺的 rotation 流程是：&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-text" data-lang="text">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl">T0: 兩邊都是 secret_v1
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">2&lt;/span>&lt;span class="cl">T1: server 端換成 secret_v2
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">3&lt;/span>&lt;span class="cl">T2: client 端換成 secret_v2&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>失效點出在 T1 到 T2 之間：server 只認 v2，但 client 還在用 v1，這段窗口內的 request 都會 401。即使窗口只有幾秒，production 流量也可能產生大量錯誤。&lt;/p>
&lt;p>更糟的是「client 更新後忘了 reload process」這種情境 — 配置檔已改、但跑著的 server / worker process 還握著舊 secret 在記憶體裡、直到下次重啟才生效。窗口可能拉長到幾分鐘到幾小時。&lt;/p></description><content:encoded><![CDATA[<h2 id="shared-secret-rotation-這篇要解決什麼">Shared Secret Rotation 這篇要解決什麼</h2>
<p>Shared Secret rotation 的核心責任是讓 credential 換新時維持可用性、可追蹤性與可撤銷性。它表面上像是一行 SQL update，實際上牽涉 server 與多個 client 的切換時序：</p>
<ul>
<li>兩邊不同時切、就斷線</li>
<li>多 client 場景下、總有一兩個沒升級</li>
<li>緊急洩漏要立即撤換、同時控制服務中斷範圍</li>
<li>Rotation 中途失敗、舊新 secret 都不通</li>
</ul>
<p>這些是維運層的真實痛點。只說「定期 rotate your secret」只能描述目標，還需要雙密期、測試、監控、通知與回退流程，才能把 rotation 變成可執行的操作契約。</p>
<p>本文聚焦三件事：</p>
<ol>
<li><strong>雙密過渡期</strong>：怎麼讓 client 可以在任意時點切換、不會斷線</li>
<li><strong>自動化工具</strong>：AWS Secrets Manager / HashiCorp Vault / GCP Secret Manager 各自的 rotation 機制</li>
<li><strong>緊急 vs 定期</strong>：兩種流程的差異、何時用哪個</li>
</ol>
<blockquote>
<p><strong>本文位置</strong>：本文是 <a href="/blog/work-log/api-%E8%AA%8D%E8%AD%89%E7%9A%84%E4%B8%89%E5%B1%A4%E4%BF%A1%E4%BB%BB%E9%82%8A%E7%95%8C%E4%BD%BF%E7%94%A8%E8%80%85%E7%B3%BB%E7%B5%B1%E8%B7%A8%E7%B3%BB%E7%B5%B1-provisioning/" data-link-title="API 認證的三層信任邊界：使用者、系統、跨系統 Provisioning" data-link-desc="API 認證的信任邊界分層（Bearer Token / Shared Secret / Provisioning）：各層的洩漏後果與撤銷方式，以及混用造成的設計失效模式。">API 認證的三層信任邊界</a> Layer 2 的深入篇。主文聚焦「為什麼系統間要獨立 credential」、本文聚焦「Shared Secret 輪替的工程實務」。</p></blockquote>
<hr>
<h2 id="rotation-解決什麼威脅">Rotation 解決什麼威脅</h2>
<p>Rotation 是縮短 secret 暴露窗與清理殘留 access 的 lifecycle 控制。它降低三種具體威脅：</p>
<table>
  <thead>
      <tr>
          <th>威脅</th>
          <th>Rotation 怎麼緩解</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>未察覺的洩漏</strong></td>
          <td>Secret 可能已被外洩、定期換能限制攻擊者使用的時間窗</td>
      </tr>
      <tr>
          <td><strong>離職員工殘留 access</strong></td>
          <td>員工離職後系統 access 沒撤徹底、rotation 把該員工知道的 secret 變廢</td>
      </tr>
      <tr>
          <td><strong>長期暴露的 metadata</strong></td>
          <td>Secret 越久、log / backup / git history 留存的副本越多</td>
      </tr>
  </tbody>
</table>
<p>Rotation 本身有成本與風險，切換設計不完整時會造成斷線。所以實務目標是「在切換可控的前提下，選一個能接受的頻率」。</p>
<p>常見定期頻率：</p>
<table>
  <thead>
      <tr>
          <th>業界場景</th>
          <th>典型頻率</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>一般 SaaS</td>
          <td>90 天 / 180 天</td>
      </tr>
      <tr>
          <td>金融、醫療</td>
          <td>30 天 / 90 天</td>
      </tr>
      <tr>
          <td>高敏感（國防、政府）</td>
          <td>7 天 / 14 天、或事件觸發</td>
      </tr>
      <tr>
          <td>純內部、低風險</td>
          <td>半年 / 一年、或永不 rotate</td>
      </tr>
  </tbody>
</table>
<blockquote>
<p><strong>頻率取決於威脅模型與操作能力</strong>：NIST SP 800-63B 對多數場景認可 30-90 天足夠、過於激進的 rotation 反而提高出錯機率。7-14 天適用於合規條款明文要求或私鑰可硬體保護的場景；多數 SaaS 可以停在 30-180 天區間。</p></blockquote>
<p>「事件觸發才換」也有合理情境。純內部 cron job、secret 外流管道少、rotation 成本大於風險時，可以選擇以事件觸發取代固定排程；重點是留下 owner、inventory 與重新評估條件。</p>
<hr>
<h2 id="核心機制雙密過渡期dual-secret-rollover">核心機制：雙密過渡期（Dual-secret Rollover）</h2>
<h3 id="直接-atomic-切換的失效點">直接 atomic 切換的失效點</h3>
<p>最直覺的 rotation 流程是：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">T0: 兩邊都是 secret_v1
</span></span><span class="line"><span class="ln">2</span><span class="cl">T1: server 端換成 secret_v2
</span></span><span class="line"><span class="ln">3</span><span class="cl">T2: client 端換成 secret_v2</span></span></code></pre></div><p>失效點出在 T1 到 T2 之間：server 只認 v2，但 client 還在用 v1，這段窗口內的 request 都會 401。即使窗口只有幾秒，production 流量也可能產生大量錯誤。</p>
<p>更糟的是「client 更新後忘了 reload process」這種情境 — 配置檔已改、但跑著的 server / worker process 還握著舊 secret 在記憶體裡、直到下次重啟才生效。窗口可能拉長到幾分鐘到幾小時。</p>
<h3 id="解法server-端同時接受新舊兩把">解法：server 端同時接受新舊兩把</h3>
<p>雙密過渡期把 rotation 分成 3 個階段：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln"> 1</span><span class="cl">T0：穩態
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">  server: [v1]
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">  client: [v1]
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">  狀態：v1 工作
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">T1：發新 secret、server 雙密期開始
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">  server: [v1, v2]   ← server 同時接受 v1 跟 v2
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">  client: [v1]
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">  狀態：兩個都 work、client 還沒切
</span></span><span class="line"><span class="ln">10</span><span class="cl">
</span></span><span class="line"><span class="ln">11</span><span class="cl">T2：通知 client 切到 v2
</span></span><span class="line"><span class="ln">12</span><span class="cl">  server: [v1, v2]
</span></span><span class="line"><span class="ln">13</span><span class="cl">  client: [v2]       ← client 升級、開始用 v2
</span></span><span class="line"><span class="ln">14</span><span class="cl">  狀態：v2 work、v1 也仍 work（過渡期）
</span></span><span class="line"><span class="ln">15</span><span class="cl">
</span></span><span class="line"><span class="ln">16</span><span class="cl">T3：確認所有 client 都切完、關閉 v1
</span></span><span class="line"><span class="ln">17</span><span class="cl">  server: [v2]       ← 移除 v1
</span></span><span class="line"><span class="ln">18</span><span class="cl">  client: [v2]
</span></span><span class="line"><span class="ln">19</span><span class="cl">  狀態：穩態、只 v1 失效</span></span></code></pre></div><p>關鍵在於 <strong>server 在 T1-T3 之間同時接受兩把</strong> — 不論 client 在這段期間用哪一把都能通過驗證。client 可以在自己的時程內升級、不需要跟 server 切換同步。</p>
<h3 id="雙密期的長度設計">雙密期的長度設計</h3>
<p>雙密期是一個可用性與暴露窗的取捨。兩把同時有效時，系統需要同時保護兩把 secret，也需要追蹤兩個版本的使用比例；時間拉太短會造成 client 來不及切換，時間拉太長會擴大舊 secret 的有效窗口。</p>
<p>設計建議：</p>
<table>
  <thead>
      <tr>
          <th>場景</th>
          <th>雙密期長度建議</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>純內部、可強制升級</td>
          <td>24-48 小時</td>
      </tr>
      <tr>
          <td>對外 client、需要溝通</td>
          <td>7-14 天</td>
      </tr>
      <tr>
          <td>大量第三方整合</td>
          <td>30-90 天 + 多次提醒</td>
      </tr>
      <tr>
          <td>緊急 rotation（已洩漏）</td>
          <td>盡量縮短、視覆蓋速度而定</td>
      </tr>
  </tbody>
</table>
<p>監控指標：在雙密期內、應該追蹤「用 v1 vs 用 v2 的 request 比例」 — 當 v1 比例降到 0%、且持續穩定一段時間後、才安全地關閉 v1。</p>
<h3 id="怎麼實作同時接受兩把">怎麼實作「同時接受兩把」</h3>
<p>實作模式有兩種：</p>
<h4 id="模式-aarray-比對">模式 A：array 比對</h4>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"><span class="line"><span class="ln"> 1</span><span class="cl"><span class="n">VALID_SECRETS</span> <span class="o">=</span> <span class="p">[</span>
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">    <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">[</span><span class="s1">&#39;SHARED_SECRET_CURRENT&#39;</span><span class="p">],</span>
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">    <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">[</span><span class="s1">&#39;SHARED_SECRET_PREVIOUS&#39;</span><span class="p">],</span>  <span class="c1"># 可選、若在雙密期</span>
</span></span><span class="line"><span class="ln"> 4</span><span class="cl"><span class="p">]</span>
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">
</span></span><span class="line"><span class="ln"> 6</span><span class="cl"><span class="k">def</span> <span class="nf">verify</span><span class="p">(</span><span class="n">received</span><span class="p">):</span>
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">    <span class="k">for</span> <span class="n">secret</span> <span class="ow">in</span> <span class="n">VALID_SECRETS</span><span class="p">:</span>
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">        <span class="k">if</span> <span class="ow">not</span> <span class="n">secret</span><span class="p">:</span>
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">            <span class="k">continue</span>
</span></span><span class="line"><span class="ln">10</span><span class="cl">        <span class="k">if</span> <span class="n">hmac</span><span class="o">.</span><span class="n">compare_digest</span><span class="p">(</span><span class="n">secret</span><span class="p">,</span> <span class="n">received</span><span class="p">):</span>
</span></span><span class="line"><span class="ln">11</span><span class="cl">            <span class="k">return</span> <span class="kc">True</span>
</span></span><span class="line"><span class="ln">12</span><span class="cl">    <span class="k">return</span> <span class="kc">False</span></span></span></code></pre></div><p>這個模式適合內部固定夥伴與少量服務，因為驗證邏輯簡單、沒有額外狀態。主要風險是兩把 secret 都要部署到 server，env var / config 變多，且每個 instance 都要確認讀到相同版本。</p>
<h4 id="模式-bsecret-store--version">模式 B：secret store + version</h4>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-python" data-lang="python"><span class="line"><span class="ln">1</span><span class="cl"><span class="k">def</span> <span class="nf">verify</span><span class="p">(</span><span class="n">received</span><span class="p">):</span>
</span></span><span class="line"><span class="ln">2</span><span class="cl">    <span class="n">current_version</span> <span class="o">=</span> <span class="n">secret_store</span><span class="o">.</span><span class="n">get_version</span><span class="p">(</span><span class="s1">&#39;shared_secret&#39;</span><span class="p">,</span> <span class="s1">&#39;current&#39;</span><span class="p">)</span>
</span></span><span class="line"><span class="ln">3</span><span class="cl">    <span class="n">previous_version</span> <span class="o">=</span> <span class="n">secret_store</span><span class="o">.</span><span class="n">get_version</span><span class="p">(</span><span class="s1">&#39;shared_secret&#39;</span><span class="p">,</span> <span class="s1">&#39;previous&#39;</span><span class="p">)</span>
</span></span><span class="line"><span class="ln">4</span><span class="cl">    <span class="k">return</span> <span class="n">hmac</span><span class="o">.</span><span class="n">compare_digest</span><span class="p">(</span><span class="n">current_version</span><span class="p">,</span> <span class="n">received</span><span class="p">)</span> <span class="ow">or</span> \
</span></span><span class="line"><span class="ln">5</span><span class="cl">           <span class="n">hmac</span><span class="o">.</span><span class="n">compare_digest</span><span class="p">(</span><span class="n">previous_version</span><span class="p">,</span> <span class="n">received</span><span class="p">)</span></span></span></code></pre></div><p>這個模式適合對外 API 或 client 數量較多的系統，因為 secret 集中管理、版本狀態可查。主要風險是驗證流程依賴 secret store，需要設計 cache、fallback 與 store 失效時的行為。</p>
<p>對外開放 API 通常用模式 B、可結合 AWS Secrets Manager / Vault 等工具。內部固定夥伴系統可以用模式 A 起步、複雜後再遷移。</p>
<hr>
<h2 id="自動化-rotation-工具">自動化 Rotation 工具</h2>
<p>純手動 rotation 在 client 數量增加後不可持續 — 自動化工具的價值是把「<strong>產生新 secret → 部署到 server → 通知 client → 撤銷舊 secret</strong>」整套流程程式化。</p>
<h3 id="aws-secrets-manager">AWS Secrets Manager</h3>
<p>機制：</p>
<ul>
<li>註冊一個 <strong>Rotation Lambda</strong>、AWS 排程觸發（例如每 90 天）</li>
<li>Lambda 跑 4 階段流程：<code>createSecret</code> → <code>setSecret</code> → <code>testSecret</code> → <code>finishSecret</code></li>
<li>每個階段都有 retry、失敗會回到上一個穩態</li>
</ul>
<p>Lambda 範例責任分工：</p>
<table>
  <thead>
      <tr>
          <th>階段</th>
          <th>動作</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><code>createSecret</code></td>
          <td>產生新 secret、存到 AWSPENDING 版本</td>
      </tr>
      <tr>
          <td><code>setSecret</code></td>
          <td>把新 secret 部署到目標 service</td>
      </tr>
      <tr>
          <td><code>testSecret</code></td>
          <td>用新 secret 跑驗證 request</td>
      </tr>
      <tr>
          <td><code>finishSecret</code></td>
          <td>把 AWSPENDING 升級為 AWSCURRENT、舊版改為 AWSPREVIOUS</td>
      </tr>
  </tbody>
</table>
<p>雙密期天然存在：AWSCURRENT + AWSPREVIOUS 兩個 staging label 同時可讀。Client 在 rotation 進行中、可以拿到 AWSPREVIOUS 作為 fallback。</p>
<p>適合場景：AWS 生態系、目標 service 是 RDS / Redshift / DocumentDB（有 native rotation Lambda template）或自定義（custom Lambda）。</p>
<h3 id="hashicorp-vault">HashiCorp Vault</h3>
<p>Vault 有兩種 rotation 策略：</p>
<p><strong>Static Secrets + Rotation Periodic</strong>：傳統 shared secret、Vault 每 N 天自動換、puts 到 vault path、client poll 拿。</p>
<p><strong>Dynamic Secrets</strong>：Vault 不存 long-lived secret、每次 client 請求時臨時產生（DB credential、AWS IAM credential 等）、TTL 短（小時到天）、過期即廢。Dynamic secret 沒有 rotation 概念 — 因為每個 secret 都只活一小段時間、洩漏窗本來就有限。</p>
<table>
  <thead>
      <tr>
          <th>模式</th>
          <th>適合</th>
          <th>限制</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Static + Periodic</td>
          <td>跨組織 API、需可預測的 secret</td>
          <td>仍需 client 端處理雙密期</td>
      </tr>
      <tr>
          <td>Dynamic</td>
          <td>內部 service 互呼、DB access</td>
          <td>目標系統要支援 short-lived credential</td>
      </tr>
  </tbody>
</table>
<p>適合場景：multi-cloud、不想綁 AWS、需要 dynamic secret 跨多種 backend。</p>
<h3 id="gcp-secret-manager">GCP Secret Manager</h3>
<p>機制較簡單 — Secret Manager 提供 <strong>versioning</strong>、每個 secret 有多個 version、client 可指定要「latest」還是特定 version。</p>
<p>Rotation 流程通常自己實作（GCP 沒提供類似 AWS 的 Rotation Lambda template）：</p>
<ol>
<li><code>addSecretVersion(name, new_secret)</code> — 加新 version</li>
<li>部署到 server（server 同時讀 latest + previous）</li>
<li>通知 client / 等 client 升級</li>
<li><code>destroySecretVersion(name, old_version)</code> — 撤銷舊 version</li>
</ol>
<p>雙密期靠 client 端邏輯（同時試 latest 跟 previous）實現。</p>
<p>適合場景：GCP 生態系、自有 rotation 邏輯不想被 vendor opinion 綁住。</p>
<h3 id="三者比較">三者比較</h3>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>AWS Secrets Manager</th>
          <th>HashiCorp Vault</th>
          <th>GCP Secret Manager</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>排程觸發</td>
          <td>內建</td>
          <td>內建（periodic）</td>
          <td>不內建（自己排 Cloud Scheduler）</td>
      </tr>
      <tr>
          <td>雙密期支援</td>
          <td>AWSCURRENT / PREVIOUS labels</td>
          <td>Static 需自寫、Dynamic 不需</td>
          <td>Version-based</td>
      </tr>
      <tr>
          <td>Dynamic credential</td>
          <td>需 custom Lambda</td>
          <td>Native support</td>
          <td>不支援</td>
      </tr>
      <tr>
          <td>跨雲 / 跨 region</td>
          <td>AWS-only</td>
          <td>跨雲</td>
          <td>GCP-only</td>
      </tr>
      <tr>
          <td>維運成本</td>
          <td>低（managed）</td>
          <td>高（自管 Vault cluster）</td>
          <td>低（managed）</td>
      </tr>
  </tbody>
</table>
<h3 id="自建-rotation-系統的最小元件">自建 rotation 系統的最小元件</h3>
<p>小規模系統可以自建最小 rotation 元件，前提是 secret 系統本身也被視為敏感基礎設施。最小元件包含：</p>
<ol>
<li><strong>Secret 存儲</strong>：DB table <code>secrets(id, version, value, created_at, retired_at)</code></li>
<li><strong>發放 API</strong>：<code>GET /secrets/current</code> 回 latest active version</li>
<li><strong>驗證邏輯</strong>：應用層讀 current + previous 兩個 active version</li>
<li><strong>排程</strong>：cron job 觸發 <code>rotate(secret_name)</code> — 產新 version、標記舊版 retired、設 retired_at</li>
<li><strong>監控</strong>：log 每個 version 被驗證的次數、舊版降到 0 後關閉</li>
</ol>
<p>這個方案適合內部小規模系統。判斷是否可行時，要同步檢查 DB encryption at rest、access log、權限分離與備援；否則自建系統可能把 rotation 風險轉移成 secret store 風險。</p>
<hr>
<h2 id="緊急-rotation洩漏發生時的流程">緊急 rotation：洩漏發生時的流程</h2>
<h3 id="跟定期-rotation-的差異">跟定期 rotation 的差異</h3>
<p>定期 rotation 目標是「<strong>不中斷服務</strong>」、所以雙密期長、給 client 充分時間切換。</p>
<p>緊急 rotation 目標是「<strong>最快讓舊 secret 失效</strong>」 — 即使犧牲部分可用性也要立刻撤銷。兩者流程完全不同：</p>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>定期 rotation</th>
          <th>緊急 rotation</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>觸發</td>
          <td>排程</td>
          <td>事件（洩漏、員工離職、被盜）</td>
      </tr>
      <tr>
          <td>優先級</td>
          <td>不中斷服務</td>
          <td>立即撤銷舊 secret</td>
      </tr>
      <tr>
          <td>雙密期</td>
          <td>長（天到月）</td>
          <td>短（小時、甚至不容忍）</td>
      </tr>
      <tr>
          <td>通知方式</td>
          <td>文件、email、提早提醒</td>
          <td>直接 push、必要時打電話</td>
      </tr>
      <tr>
          <td>Client 不升級</td>
          <td>等</td>
          <td>強制斷線</td>
      </tr>
  </tbody>
</table>
<h3 id="緊急-rotation-流程模板">緊急 rotation 流程模板</h3>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln"> 1</span><span class="cl">T0: 偵測或回報洩漏
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">T0+0~15min: 評估
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">   - 確認洩漏範圍（哪些 secret、影響哪些 client）
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">   - 評估「立即斷舊 secret」對 production 的影響
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">   - 決定是否走緊急流程 vs 縮短的定期流程
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">T0+15min~1hr: 部署新 secret
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">   - 產生新 secret
</span></span><span class="line"><span class="ln">10</span><span class="cl">   - 部署到 server、開啟雙密期
</span></span><span class="line"><span class="ln">11</span><span class="cl">   - 主動 push 新 secret 給已知 client（內部用 channel 通知、外部 client email + dashboard）
</span></span><span class="line"><span class="ln">12</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln">13</span><span class="cl">T0+1hr~24hr: 強制切換
</span></span><span class="line"><span class="ln">14</span><span class="cl">   - 監控用舊 secret 的 request 比例
</span></span><span class="line"><span class="ln">15</span><span class="cl">   - 跟未升級的 client 個別聯繫
</span></span><span class="line"><span class="ln">16</span><span class="cl">   - 視情境設「強制斷線時間點」並提早警告
</span></span><span class="line"><span class="ln">17</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln">18</span><span class="cl">T0+24hr~72hr: 撤銷舊 secret
</span></span><span class="line"><span class="ln">19</span><span class="cl">   - 即使仍有 client 在用舊 secret、也斷
</span></span><span class="line"><span class="ln">20</span><span class="cl">   - 接受部分服務中斷、優先於 secret 繼續暴露
</span></span><span class="line"><span class="ln">21</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln">22</span><span class="cl">事後: 檢討
</span></span><span class="line"><span class="ln">23</span><span class="cl">   - 洩漏怎麼發生（log 翻查、code audit）
</span></span><span class="line"><span class="ln">24</span><span class="cl">   - 偵測機制能否更快
</span></span><span class="line"><span class="ln">25</span><span class="cl">   - 流程哪裡可以改進</span></span></code></pre></div><p>關鍵權衡：<strong>「斷線成本」vs「secret 繼續暴露的損害」</strong>。對金融、醫療等高敏感場景、寧可斷線；對非關鍵內部服務、可能可以拉長雙密期。沒有通用答案、要場景判斷。</p>
<h3 id="偵測洩漏的訊號">偵測洩漏的訊號</h3>
<p>緊急 rotation 的前提是「<strong>知道洩漏發生了</strong>」 — 但很多洩漏直到攻擊者開始用 secret 才被發現、間隔可能是幾個月。</p>
<p>主動偵測手段：</p>
<table>
  <thead>
      <tr>
          <th>訊號</th>
          <th>怎麼偵測</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>Secret 出現在公開 repo</strong></td>
          <td>GitHub Secret Scanning、GitGuardian、TruffleHog</td>
      </tr>
      <tr>
          <td><strong>異常使用 pattern</strong></td>
          <td>異常時間、異常 IP、異常 request 量</td>
      </tr>
      <tr>
          <td><strong>多個 IP 同時用同一 secret</strong></td>
          <td>應用層 log 分析、SIEM 工具</td>
      </tr>
      <tr>
          <td><strong>離職員工觸發 access</strong></td>
          <td>跟 HR 系統整合的 access review</td>
      </tr>
  </tbody>
</table>
<p>把這些設成監控告警、是降低「洩漏到察覺」窗口的關鍵。</p>
<hr>
<h2 id="多-client-的同步難題">多 client 的同步難題</h2>
<h3 id="問題本質client-不在你的控制範圍">問題本質：client 不在你的控制範圍</h3>
<p>對外開放 API 的場景，Shared Secret 散落在第三方 client 的 server。Rotation 因此變成「怎麼讓第三方在你的時程內配合」的協調問題，不只是技術問題。</p>
<p>常見痛點：</p>
<ul>
<li>通知 email 進垃圾匣、第三方沒看到</li>
<li>第三方的工程師離職、新接手者不知道有 rotation 排程</li>
<li>第三方的 deploy 流程慢、提前一週通知還是來不及</li>
<li>第三方根本不在線（小型客戶、半年才用一次 API）</li>
</ul>
<h3 id="grace-period-設計">Grace period 設計</h3>
<p>Grace period 是「<strong>舊 secret 撤銷後、給 client 緩衝期重新申請</strong>」的機制。比硬性 deadline 更彈性：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">T0: 公告 rotation、雙密期開始
</span></span><span class="line"><span class="ln">2</span><span class="cl">T0+30天: 雙密期結束、舊 secret 撤銷
</span></span><span class="line"><span class="ln">3</span><span class="cl">T0+30~60天: Grace period
</span></span><span class="line"><span class="ln">4</span><span class="cl">   - 用舊 secret 的 request 回 410 Gone（或 401 + 可讀的 error code，視 API 慣例）+ 連結到 &#34;secret expired&#34; 頁
</span></span><span class="line"><span class="ln">5</span><span class="cl">   - 提供 self-service 重設 secret 的流程
</span></span><span class="line"><span class="ln">6</span><span class="cl">   - 仍然斷線、但 client 知道怎麼自己救
</span></span><span class="line"><span class="ln">7</span><span class="cl">T0+60天: 完全關閉、需要重新申請新 client account</span></span></code></pre></div><p>Grace period 的關鍵是在拒絕舊 secret 的同時，提供足夠資訊讓 client 自助修復。判讀訊號是錯誤回應是否能指出 secret 已過期、去哪裡重設、何時完全關閉；若只回無上下文的 401，client 仍會被導向錯誤排障路徑。</p>
<h3 id="強制升級的工具">強制升級的工具</h3>
<p>對於必須統一升級的場景（例如安全合規要求）、有幾種強制手段：</p>
<table>
  <thead>
      <tr>
          <th>手段</th>
          <th>怎麼運作</th>
          <th>適合</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>HTTP 410 + 訊息</strong></td>
          <td>舊 secret 不只 401、回 410 + 升級指引</td>
          <td>一般對外 API</td>
      </tr>
      <tr>
          <td><strong>暫時降級而非斷線</strong></td>
          <td>舊 secret 仍 work、但限流 / 降級權限</td>
          <td>重要 client、寧可降級不要斷</td>
      </tr>
      <tr>
          <td><strong>個別溝通 + 客製化期限</strong></td>
          <td>對大 client 個別協商 deadline</td>
          <td>高價值合作夥伴</td>
      </tr>
      <tr>
          <td><strong>合約強制條款</strong></td>
          <td>簽約時就寫清楚「Y 年內必須能配合 rotation」</td>
          <td>B2B SaaS</td>
      </tr>
  </tbody>
</table>
<hr>
<h2 id="失敗模式與緩解">失敗模式與緩解</h2>
<h3 id="失敗-1雙密期太短client-沒升級">失敗 1：雙密期太短、client 沒升級</h3>
<p><strong>症狀</strong>：rotation 後第二週，某 client 開始 401，才發現他沒收到通知或尚未升級。</p>
<p><strong>緩解</strong>：</p>
<ul>
<li>雙密期至少覆蓋「最大已知 client 的 deploy cycle」</li>
<li>雙密期內監控「用舊 secret 的 client 數量」、降到 0 才關</li>
<li>緊急 rotation 例外、要事先評估可接受的斷線成本</li>
</ul>
<h3 id="失敗-2rotation-中斷新舊都不通">失敗 2：rotation 中斷、新舊都不通</h3>
<p><strong>症狀</strong>：deploy 新 secret 到 server 中途失敗、一半 server 是新、一半是舊 — request 隨機 401。</p>
<p><strong>緩解</strong>：</p>
<ul>
<li>部署用 rolling update、確認每個 instance 都生效再進下一個</li>
<li>部署前確認「server 是雙密 mode」、即使部署到一半也能容錯</li>
<li>保留快速 rollback 機制（10 分鐘內能 revert）</li>
</ul>
<h3 id="失敗-3新-secret-沒測通就上線">失敗 3：新 secret 沒測通就上線</h3>
<p><strong>症狀</strong>：新 secret 部署完、第一個 client 試了發現格式不對 / 長度限制 / 特殊字元編碼問題、大量 401。</p>
<p><strong>緩解</strong>：</p>
<ul>
<li>Rotation 流程加 <code>testSecret</code> 階段（AWS Lambda 模式）— 切換前用新 secret 跑一輪驗證 request</li>
<li>Staging 環境先跑完整 rotation 流程、再上 prod</li>
<li>新 secret 的 format 跟舊一致（同長度、同字元集）、減少 client 端的 parsing 風險</li>
</ul>
<h3 id="失敗-4rotation-缺少-ownersecret-長期暴露">失敗 4：Rotation 缺少 owner、secret 長期暴露</h3>
<p><strong>症狀</strong>：上次 rotate 已是 3 年前，原本的負責人離職，接手者不知道有這個 secret 存在。</p>
<p><strong>緩解</strong>：</p>
<ul>
<li>Secret 管理工具強制設 <code>expires_at</code>、過期前自動提醒</li>
<li>Inventory 表：所有 production secret 列管、定期 audit</li>
<li>Rotation 排程進 calendar、輪值負責</li>
</ul>
<h3 id="失敗-5rotation-後-audit-log-沒更新">失敗 5：rotation 後 audit log 沒更新</h3>
<p><strong>症狀</strong>：洩漏發生、要追「這個 secret 給過誰用」、但 audit log 只記了「secret 被用了」、沒記版本、無法區分新舊。</p>
<p><strong>緩解</strong>：</p>
<ul>
<li>Audit log 記 secret version、不只 secret 本身</li>
<li>Rotation 事件本身也要 log（誰、什麼時候、為什麼）</li>
<li>Log 保留期跨多次 rotation cycle、避免歷史追溯斷鏈</li>
</ul>
<hr>
<h2 id="收尾">收尾</h2>
<p>Shared Secret rotation 的本質是<strong>有意識管理 secret 的 lifecycle</strong>。從發放、儲存、輪替到撤銷，每個階段都有對應的工程設計與監控訊號。</p>
<p>幾個核心原則：</p>
<ol>
<li><strong>雙密過渡期是底層機制</strong> — 任何 rotation 方案都建立在「server 能同時接受兩把」之上</li>
<li><strong>自動化工具值得投資</strong> — 規模小用 secret manager（AWS / Vault / GCP），規模大可以自建，避免停在純手動</li>
<li><strong>定期跟緊急是兩套流程</strong> — 定期重不中斷，緊急重立刻撤，流程、通知與回退標準要分開</li>
<li><strong>多 client 是協調問題</strong> — 比技術問題難解、grace period + 強制升級工具是常用解法</li>
<li><strong>失敗模式要演練</strong> — production 第一次跑 rotation 前，先在 staging 演練完整流程與回退路徑</li>
</ol>
<p>延伸閱讀：</p>
<ul>
<li><a href="/blog/work-log/api-%E8%AA%8D%E8%AD%89%E7%9A%84%E4%B8%89%E5%B1%A4%E4%BF%A1%E4%BB%BB%E9%82%8A%E7%95%8C%E4%BD%BF%E7%94%A8%E8%80%85%E7%B3%BB%E7%B5%B1%E8%B7%A8%E7%B3%BB%E7%B5%B1-provisioning/" data-link-title="API 認證的三層信任邊界：使用者、系統、跨系統 Provisioning" data-link-desc="API 認證的信任邊界分層（Bearer Token / Shared Secret / Provisioning）：各層的洩漏後果與撤銷方式，以及混用造成的設計失效模式。">API 認證的三層信任邊界</a> — 本文的主篇、Shared Secret 在「Layer 2 系統層」的位置</li>
<li><a href="/blog/work-log/laravel-sanctum-%E7%9A%84-bearer-token-%E8%A8%AD%E8%A8%88%E5%89%96%E6%9E%90pksecret-%E7%82%BA%E4%BB%80%E9%BA%BC%E9%80%99%E6%A8%A3%E8%A8%AD%E8%A8%88/" data-link-title="Laravel Sanctum 的 Bearer Token 設計剖析：{PK}|{secret} 為什麼這樣設計" data-link-desc="Laravel Sanctum `{PK}|{secret}` 格式的設計理由、hash 儲存取捨、constant-time 比對位置，以及跟 GitHub PAT、Stripe API Key 的差異。">Laravel Sanctum 的 Bearer Token 設計剖析</a> — Layer 1 使用者 token 的儲存原則（hash + constant-time）也適用於 Layer 2</li>
<li><a href="/blog/work-log/mtls-%E5%AF%A6%E9%9A%9B%E6%80%8E%E9%BA%BC%E8%A8%AD%E5%AE%9A%E8%88%87%E9%81%8B%E7%B6%ADca-%E9%9A%8E%E5%B1%A4%E6%86%91%E8%AD%89%E7%94%9F%E5%91%BD%E9%80%B1%E6%9C%9F%E6%92%A4%E9%8A%B7%E6%A9%9F%E5%88%B6/" data-link-title="mTLS 實際怎麼設定與運維：CA 階層、憑證生命週期、撤銷機制" data-link-desc="mTLS 落地的運維決策（CA 階層、憑證儲存、撤銷機制）與基礎設施整合（nginx / envoy / service mesh），以及跟 API Key / OAuth 的成本與安全取捨。">mTLS 實際怎麼設定與運維</a> — 不用 shared secret 的另一條路、憑證 lifecycle 跟 secret lifecycle 的對照</li>
</ul>
]]></content:encoded></item></channel></rss>