<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Non-Technical on Tarragon</title><link>https://tarrragon.github.io/blog/tags/non-technical/</link><description>Recent content in Non-Technical on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Fri, 26 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/non-technical/index.xml" rel="self" type="application/rss+xml"/><item><title>給非工程背景決策者的 infra 說明</title><link>https://tarrragon.github.io/blog/infra/09-driving-adoption/infra-explained-for-non-engineers/</link><pubDate>Fri, 26 Jun 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/infra/09-driving-adoption/infra-explained-for-non-engineers/</guid><description>&lt;p>工程團隊說「我們需要花時間做 infra」，對參與資源決策的人來說，這句話的翻譯常常是「花時間做一件看不到產出的事」。產品畫面不會變、使用者不會感覺到差異、營收報表上找不到對應的數字。這篇文章從管理角度說明 infra 在處理什麼營運問題、不處理的代價怎麼累積、以及出事後的補救成本為什麼比事前高。&lt;/p>
&lt;h2 id="工程團隊說的-infra-在處理什麼">工程團隊說的 infra 在處理什麼&lt;/h2>
&lt;p>infra（infrastructure，基礎設施）是讓應用程式能運作的底層資源與管理機制。工程團隊說「做 infra」時，處理的是五個營運層面的問題，每個問題都對應一種管理風險：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>問題&lt;/th>
 &lt;th>工程術語&lt;/th>
 &lt;th>管理風險&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>系統壞了能不能重建&lt;/td>
 &lt;td>IaC / state&lt;/td>
 &lt;td>核心服務中斷後的恢復時間是分鐘級還是天級&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>誰能存取什麼資源&lt;/td>
 &lt;td>IAM / 權限&lt;/td>
 &lt;td>一次憑證外洩是否等於所有資料暴露&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>測試操作會不會影響正式客戶&lt;/td>
 &lt;td>環境分離&lt;/td>
 &lt;td>工程師在測試環境犯的錯是否可能直接波及生產&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>出事後能不能查到誰改了什麼&lt;/td>
 &lt;td>變更紀錄&lt;/td>
 &lt;td>事故排查是靠系統紀錄還是靠口頭回憶&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>雲端帳單花在哪裡、能不能歸屬&lt;/td>
 &lt;td>tagging&lt;/td>
 &lt;td>成本是一筆公共支出還是可拆解到產品線&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>這五件事的共同特徵是平時完全不被感知。感知到的時刻通常是出事的時刻 — 一次無法重建的當機、一次稽核要求交不出的存取紀錄、一筆無法解釋的雲端帳單。&lt;/p>
&lt;h2 id="不做的代價怎麼累積">不做的代價怎麼累積&lt;/h2>
&lt;p>infra 的投入是可見的（工程師時間），不做的代價是隱藏的。隱藏代價分散在不同科目、由不同人在不同時間點承擔，所以在任何一次預算會議上都不會以完整形態出現。把它拆開：&lt;/p>
&lt;p>&lt;strong>恢復能力的缺口&lt;/strong>。系統的建置方式如果只存在某個工程師的記憶裡，這個人不在座位的期間就是系統的恢復能力空窗。一個有環境描述檔的系統，重建是一條指令的事（分鐘級）；一個純手動建出來的系統，重建要靠逐一比對設定來還原（天級）。兩者在正常運作時看起來完全一樣，差別只在出事那一刻的恢復速度。&lt;/p>
&lt;p>&lt;strong>人員依賴的脆弱性&lt;/strong>。「只有某個人知道怎麼改」這句話翻譯成管理語言是「這個人是營運連續性的單點故障」。他離職、請長假、或單純忙不過來的時候，團隊就失去安全改動系統底層的能力。把建置方式寫成程式碼後，新人讀程式碼就能理解系統結構，交接從口頭傳承變成文件閱讀。&lt;/p>
&lt;p>&lt;strong>不可見的持續支出&lt;/strong>。沒有資源盤點與標籤的雲端帳號，會累積「沒有人記得還開著」的資源 — 測試完沒關的機器、下線服務遺留的資料庫、實驗用的儲存空間。個別金額不大，但持續計費、沒人負責、也沒人會主動去清（因為不知道關了會不會影響什麼）。多數團隊第一次盤點時會發現 10-30% 的月費花在沒有人認領的資源上。&lt;/p>
&lt;p>&lt;strong>合規準備的反覆成本&lt;/strong>。外部稽核（SOC 2、ISO 27001、客戶安全問卷）要求「列出所有對外暴露的服務」「提供權限變更紀錄」「證明生產環境的變更有經過審查」。手動環境每次回應這些要求都是一次人工考古（一到兩週的工程師時間）。有環境描述檔和變更紀錄的系統，回應同樣的問題是跑幾條查詢（幾小時）。稽核是週期性的，準備成本的差距每年都會兌現。&lt;/p>
&lt;h2 id="出事的處理與補救">出事的處理與補救&lt;/h2>
&lt;p>事前做和事後補的成本差距是非線性的。幾個具體場景：&lt;/p>
&lt;p>&lt;strong>憑證外洩&lt;/strong>。一把長期有效的存取金鑰如果外流，攻擊者能用它存取金鑰對應的所有資源。補救需要：撤銷外洩的金鑰、找出所有使用它的系統同步更換（而「所有使用的地方」在手動環境裡通常沒有完整清單）、評估外洩期間有沒有被異常存取、通知可能受影響的客戶。事前用短期自動過期的憑證取代長期金鑰，外洩的衝擊從「不定期限的完整存取權」縮到「幾分鐘後自動失效的短暫存取」。&lt;/p>
&lt;p>&lt;strong>生產環境誤操作&lt;/strong>。測試環境和生產環境沒有隔離的系統，一次操作失誤可能直接影響正式客戶。補救需要：判斷受影響範圍、修復資料、對外溝通。事前做好環境分離，測試環境的操作從物理上接觸不到生產資料。&lt;/p>
&lt;p>&lt;strong>無法重建的系統中斷&lt;/strong>。核心服務掛了，但它是手動建出來的、沒有環境描述檔。補救是逐一比對雲端管理介面上的設定，試圖還原出跟原來一樣的環境 — 但沒有人能確定「跟原來一模一樣」，因為沒有紀錄記載原來長什麼樣。恢復時間以天計，期間服務不可用。&lt;/p>
&lt;p>這些場景的共同結構是：事前投入的成本是固定的（幾週工程師時間），事後補救的成本隨影響範圍和持續時間膨脹。&lt;/p>
&lt;h2 id="哪些該現在做哪些可以排後面">哪些該現在做、哪些可以排後面&lt;/h2>
&lt;p>工程團隊提出的 infra 工作可以按「事後補救成本的陡峭程度」分級：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>分級&lt;/th>
 &lt;th>特徵&lt;/th>
 &lt;th>對應的工作&lt;/th>
 &lt;th>延後的代價&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>地基級&lt;/td>
 &lt;td>出事不可逆或補救代價極高&lt;/td>
 &lt;td>憑證管理、權限管控、刪除保護&lt;/td>
 &lt;td>一次事故就可能超過全年投入&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>營運級&lt;/td>
 &lt;td>出事可恢復但反覆消耗&lt;/td>
 &lt;td>環境分離、變更紀錄、環境描述檔&lt;/td>
 &lt;td>每次事故和每次稽核都多花時間&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>優化級&lt;/td>
 &lt;td>不做也不出事，做了提高效率&lt;/td>
 &lt;td>自動化護欄、成本標籤、進階治理&lt;/td>
 &lt;td>持續的小額浪費與人工重複&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>地基級的工作延後風險最高，營運級的工作每次事故都在付利息，優化級的工作可以等到地基穩了再做。跟工程團隊確認「這次提案裡哪些是地基級」，是判斷優先級的起點。&lt;/p>
&lt;h2 id="常問的問題">常問的問題&lt;/h2>
&lt;h3 id="已經在雲端了為什麼還需要額外做">已經在雲端了，為什麼還需要額外做？&lt;/h3>
&lt;p>在雲端代表公司已經租用了運算資源，但租用資源跟管理資源是兩件事。資源的存取控制、環境隔離、變更紀錄、備份策略 — 這些都需要主動設定。很多公司「上雲」之後，資源是工程師在管理介面上一個一個手動建出來的，沒有描述檔、沒有盤點、沒有分區設計。infra 要補的正是管理層。&lt;/p>
&lt;h3 id="投入多少工程師時間">投入多少工程師時間？&lt;/h3>
&lt;p>分階段做。第一階段（1-2 週）處理地基級的三件事：憑證安全、權限收斂、有狀態資源的保護。第二階段（2-3 週）建立環境描述檔和環境分離。第三階段（持續但零星）加上自動化護欄和成本標籤。每個階段獨立交付價值，不需要一次投入全部時間。具體的階段拆法對應&lt;a href="https://tarrragon.github.io/blog/infra/00-infra-mindset/" data-link-title="模組零：infra 是什麼，為什麼 day 1 就要鋪地基" data-link-desc="基礎設施的責任邊界、成熟度階梯，以及地基為什麼總在環境爆炸時才被看見">成熟度階梯&lt;/a>（從全手動到全程式碼治理的五階分級）。&lt;/p>
&lt;h3 id="出事了能不能事後補">出事了能不能事後補？&lt;/h3>
&lt;p>地基級的工作事後補的代價遠高於事前。一把憑證進了版本控制歷史就永久留存，撤銷金鑰只是第一步，清除歷史和輪替所有受影響的存取是更大的工程。環境描述檔和變更紀錄的事後補救代價相對線性 — 越晚開始、需要回頭整理的資源越多，但不至於跳崖式暴漲。判斷依據是：這件事出了問題，補救成本是隨時間固定的、還是隨時間加速的？後者該現在做。&lt;/p>
&lt;h3 id="怎麼判斷工程團隊做得怎樣">怎麼判斷工程團隊做得怎樣？&lt;/h3>
&lt;p>幾個可以追蹤的指標：目前有多少比例的資源被環境描述檔管理（覆蓋率）？測試環境跟生產環境是否完全隔離？變更是否走審查流程？主要維護者如果不在，其他人能不能靠描述檔安全地做小幅修改？這些指標從「否」翻成「是」，就是 infra 投入的階段性交付。&lt;/p>
&lt;h2 id="延伸閱讀">延伸閱讀&lt;/h2>
&lt;ul>
&lt;li>→ &lt;a href="https://tarrragon.github.io/blog/infra/09-driving-adoption/infra-business-justification/" data-link-title="infra 投資的商業論證" data-link-desc="用成本、風險、速度三條論述線把 infra 投資翻譯成商業語言，附一頁簡報邏輯與常見反對意見的回應">infra 投資的商業論證&lt;/a>：成本、風險、速度三條論述線的數字化框架&lt;/li>
&lt;li>→ &lt;a href="https://tarrragon.github.io/blog/infra/00-infra-mindset/infra-responsibility-maturity/" data-link-title="infra 的責任邊界、成熟度階梯與 day 1 鐵律" data-link-desc="基礎設施承擔五個面向的責任，每一面都有獨立的失效模式；成熟度階梯用來對齊現況而非追求滿分，day 1 鐵律則劃出早期團隊該優先鋪的地基">模組零：infra 是什麼&lt;/a>：工程面的責任邊界與成熟度階梯&lt;/li>
&lt;li>→ &lt;a href="https://tarrragon.github.io/blog/infra/09-driving-adoption/trust-alignment-knowledge-sharing/" data-link-title="怎麼把 infra 推動起來 — 信任赤字、期望值對齊與知識共享" data-link-desc="技術正確不等於推得動 — infra 在商業優先級裡吃虧的結構性原因，以及用可回退切片、期望值對齊與知識分散來跨過組織關卡">怎麼把 infra 推動起來&lt;/a>：信任赤字、期望值對齊與知識共享&lt;/li>
&lt;/ul></description><content:encoded><![CDATA[<p>工程團隊說「我們需要花時間做 infra」，對參與資源決策的人來說，這句話的翻譯常常是「花時間做一件看不到產出的事」。產品畫面不會變、使用者不會感覺到差異、營收報表上找不到對應的數字。這篇文章從管理角度說明 infra 在處理什麼營運問題、不處理的代價怎麼累積、以及出事後的補救成本為什麼比事前高。</p>
<h2 id="工程團隊說的-infra-在處理什麼">工程團隊說的 infra 在處理什麼</h2>
<p>infra（infrastructure，基礎設施）是讓應用程式能運作的底層資源與管理機制。工程團隊說「做 infra」時，處理的是五個營運層面的問題，每個問題都對應一種管理風險：</p>
<table>
  <thead>
      <tr>
          <th>問題</th>
          <th>工程術語</th>
          <th>管理風險</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>系統壞了能不能重建</td>
          <td>IaC / state</td>
          <td>核心服務中斷後的恢復時間是分鐘級還是天級</td>
      </tr>
      <tr>
          <td>誰能存取什麼資源</td>
          <td>IAM / 權限</td>
          <td>一次憑證外洩是否等於所有資料暴露</td>
      </tr>
      <tr>
          <td>測試操作會不會影響正式客戶</td>
          <td>環境分離</td>
          <td>工程師在測試環境犯的錯是否可能直接波及生產</td>
      </tr>
      <tr>
          <td>出事後能不能查到誰改了什麼</td>
          <td>變更紀錄</td>
          <td>事故排查是靠系統紀錄還是靠口頭回憶</td>
      </tr>
      <tr>
          <td>雲端帳單花在哪裡、能不能歸屬</td>
          <td>tagging</td>
          <td>成本是一筆公共支出還是可拆解到產品線</td>
      </tr>
  </tbody>
</table>
<p>這五件事的共同特徵是平時完全不被感知。感知到的時刻通常是出事的時刻 — 一次無法重建的當機、一次稽核要求交不出的存取紀錄、一筆無法解釋的雲端帳單。</p>
<h2 id="不做的代價怎麼累積">不做的代價怎麼累積</h2>
<p>infra 的投入是可見的（工程師時間），不做的代價是隱藏的。隱藏代價分散在不同科目、由不同人在不同時間點承擔，所以在任何一次預算會議上都不會以完整形態出現。把它拆開：</p>
<p><strong>恢復能力的缺口</strong>。系統的建置方式如果只存在某個工程師的記憶裡，這個人不在座位的期間就是系統的恢復能力空窗。一個有環境描述檔的系統，重建是一條指令的事（分鐘級）；一個純手動建出來的系統，重建要靠逐一比對設定來還原（天級）。兩者在正常運作時看起來完全一樣，差別只在出事那一刻的恢復速度。</p>
<p><strong>人員依賴的脆弱性</strong>。「只有某個人知道怎麼改」這句話翻譯成管理語言是「這個人是營運連續性的單點故障」。他離職、請長假、或單純忙不過來的時候，團隊就失去安全改動系統底層的能力。把建置方式寫成程式碼後，新人讀程式碼就能理解系統結構，交接從口頭傳承變成文件閱讀。</p>
<p><strong>不可見的持續支出</strong>。沒有資源盤點與標籤的雲端帳號，會累積「沒有人記得還開著」的資源 — 測試完沒關的機器、下線服務遺留的資料庫、實驗用的儲存空間。個別金額不大，但持續計費、沒人負責、也沒人會主動去清（因為不知道關了會不會影響什麼）。多數團隊第一次盤點時會發現 10-30% 的月費花在沒有人認領的資源上。</p>
<p><strong>合規準備的反覆成本</strong>。外部稽核（SOC 2、ISO 27001、客戶安全問卷）要求「列出所有對外暴露的服務」「提供權限變更紀錄」「證明生產環境的變更有經過審查」。手動環境每次回應這些要求都是一次人工考古（一到兩週的工程師時間）。有環境描述檔和變更紀錄的系統，回應同樣的問題是跑幾條查詢（幾小時）。稽核是週期性的，準備成本的差距每年都會兌現。</p>
<h2 id="出事的處理與補救">出事的處理與補救</h2>
<p>事前做和事後補的成本差距是非線性的。幾個具體場景：</p>
<p><strong>憑證外洩</strong>。一把長期有效的存取金鑰如果外流，攻擊者能用它存取金鑰對應的所有資源。補救需要：撤銷外洩的金鑰、找出所有使用它的系統同步更換（而「所有使用的地方」在手動環境裡通常沒有完整清單）、評估外洩期間有沒有被異常存取、通知可能受影響的客戶。事前用短期自動過期的憑證取代長期金鑰，外洩的衝擊從「不定期限的完整存取權」縮到「幾分鐘後自動失效的短暫存取」。</p>
<p><strong>生產環境誤操作</strong>。測試環境和生產環境沒有隔離的系統，一次操作失誤可能直接影響正式客戶。補救需要：判斷受影響範圍、修復資料、對外溝通。事前做好環境分離，測試環境的操作從物理上接觸不到生產資料。</p>
<p><strong>無法重建的系統中斷</strong>。核心服務掛了，但它是手動建出來的、沒有環境描述檔。補救是逐一比對雲端管理介面上的設定，試圖還原出跟原來一樣的環境 — 但沒有人能確定「跟原來一模一樣」，因為沒有紀錄記載原來長什麼樣。恢復時間以天計，期間服務不可用。</p>
<p>這些場景的共同結構是：事前投入的成本是固定的（幾週工程師時間），事後補救的成本隨影響範圍和持續時間膨脹。</p>
<h2 id="哪些該現在做哪些可以排後面">哪些該現在做、哪些可以排後面</h2>
<p>工程團隊提出的 infra 工作可以按「事後補救成本的陡峭程度」分級：</p>
<table>
  <thead>
      <tr>
          <th>分級</th>
          <th>特徵</th>
          <th>對應的工作</th>
          <th>延後的代價</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>地基級</td>
          <td>出事不可逆或補救代價極高</td>
          <td>憑證管理、權限管控、刪除保護</td>
          <td>一次事故就可能超過全年投入</td>
      </tr>
      <tr>
          <td>營運級</td>
          <td>出事可恢復但反覆消耗</td>
          <td>環境分離、變更紀錄、環境描述檔</td>
          <td>每次事故和每次稽核都多花時間</td>
      </tr>
      <tr>
          <td>優化級</td>
          <td>不做也不出事，做了提高效率</td>
          <td>自動化護欄、成本標籤、進階治理</td>
          <td>持續的小額浪費與人工重複</td>
      </tr>
  </tbody>
</table>
<p>地基級的工作延後風險最高，營運級的工作每次事故都在付利息，優化級的工作可以等到地基穩了再做。跟工程團隊確認「這次提案裡哪些是地基級」，是判斷優先級的起點。</p>
<h2 id="常問的問題">常問的問題</h2>
<h3 id="已經在雲端了為什麼還需要額外做">已經在雲端了，為什麼還需要額外做？</h3>
<p>在雲端代表公司已經租用了運算資源，但租用資源跟管理資源是兩件事。資源的存取控制、環境隔離、變更紀錄、備份策略 — 這些都需要主動設定。很多公司「上雲」之後，資源是工程師在管理介面上一個一個手動建出來的，沒有描述檔、沒有盤點、沒有分區設計。infra 要補的正是管理層。</p>
<h3 id="投入多少工程師時間">投入多少工程師時間？</h3>
<p>分階段做。第一階段（1-2 週）處理地基級的三件事：憑證安全、權限收斂、有狀態資源的保護。第二階段（2-3 週）建立環境描述檔和環境分離。第三階段（持續但零星）加上自動化護欄和成本標籤。每個階段獨立交付價值，不需要一次投入全部時間。具體的階段拆法對應<a href="/blog/infra/00-infra-mindset/" data-link-title="模組零：infra 是什麼，為什麼 day 1 就要鋪地基" data-link-desc="基礎設施的責任邊界、成熟度階梯，以及地基為什麼總在環境爆炸時才被看見">成熟度階梯</a>（從全手動到全程式碼治理的五階分級）。</p>
<h3 id="出事了能不能事後補">出事了能不能事後補？</h3>
<p>地基級的工作事後補的代價遠高於事前。一把憑證進了版本控制歷史就永久留存，撤銷金鑰只是第一步，清除歷史和輪替所有受影響的存取是更大的工程。環境描述檔和變更紀錄的事後補救代價相對線性 — 越晚開始、需要回頭整理的資源越多，但不至於跳崖式暴漲。判斷依據是：這件事出了問題，補救成本是隨時間固定的、還是隨時間加速的？後者該現在做。</p>
<h3 id="怎麼判斷工程團隊做得怎樣">怎麼判斷工程團隊做得怎樣？</h3>
<p>幾個可以追蹤的指標：目前有多少比例的資源被環境描述檔管理（覆蓋率）？測試環境跟生產環境是否完全隔離？變更是否走審查流程？主要維護者如果不在，其他人能不能靠描述檔安全地做小幅修改？這些指標從「否」翻成「是」，就是 infra 投入的階段性交付。</p>
<h2 id="延伸閱讀">延伸閱讀</h2>
<ul>
<li>→ <a href="/blog/infra/09-driving-adoption/infra-business-justification/" data-link-title="infra 投資的商業論證" data-link-desc="用成本、風險、速度三條論述線把 infra 投資翻譯成商業語言，附一頁簡報邏輯與常見反對意見的回應">infra 投資的商業論證</a>：成本、風險、速度三條論述線的數字化框架</li>
<li>→ <a href="/blog/infra/00-infra-mindset/infra-responsibility-maturity/" data-link-title="infra 的責任邊界、成熟度階梯與 day 1 鐵律" data-link-desc="基礎設施承擔五個面向的責任，每一面都有獨立的失效模式；成熟度階梯用來對齊現況而非追求滿分，day 1 鐵律則劃出早期團隊該優先鋪的地基">模組零：infra 是什麼</a>：工程面的責任邊界與成熟度階梯</li>
<li>→ <a href="/blog/infra/09-driving-adoption/trust-alignment-knowledge-sharing/" data-link-title="怎麼把 infra 推動起來 — 信任赤字、期望值對齊與知識共享" data-link-desc="技術正確不等於推得動 — infra 在商業優先級裡吃虧的結構性原因，以及用可回退切片、期望值對齊與知識分散來跨過組織關卡">怎麼把 infra 推動起來</a>：信任赤字、期望值對齊與知識共享</li>
</ul>
]]></content:encoded></item></channel></rss>