<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Static-Site on Tarragon</title><link>https://tarrragon.github.io/blog/tags/static-site/</link><description>Recent content in Static-Site on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Tue, 12 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/static-site/index.xml" rel="self" type="application/rss+xml"/><item><title>4.16 靜態 / serverless RAG deployment：架構選擇與資安取捨</title><link>https://tarrragon.github.io/blog/llm/04-applications/static-and-serverless-rag-deployment/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/04-applications/static-and-serverless-rag-deployment/</guid><description>&lt;p>&lt;a href="https://tarrragon.github.io/blog/llm/04-applications/rag-principles/" data-link-title="4.1 RAG 原理：retrieval &amp;#43; augmentation 模式" data-link-desc="為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因">4.1 RAG&lt;/a> 跟 &lt;a href="https://tarrragon.github.io/blog/llm/04-applications/embedding-model-internals/" data-link-title="4.12 Embedding model 內部：訓練、選型、in-domain fine-tune" data-link-desc="Embedding model 怎麼訓練（contrastive learning &amp;#43; hard negative mining）、怎麼挑（MTEB / 大小 / domain）、何時該自己 fine-tune">4.12 embedding model&lt;/a> 寫的是「RAG 在做什麼、embedding 怎麼選」、預設「有 backend server」可跑 embedding 跟 LLM。但實際大量場景是&lt;strong>沒 backend&lt;/strong> — 個人 blog（Hugo / Jekyll / Astro）想加智能搜尋、docs site 想做 LLM 對話、demo 想離線跑。本章把這條「靜態 / serverless RAG」路線拆成四個方案、配合靜態場景&lt;strong>特有的資安議題&lt;/strong>（這些議題模組六沒覆蓋、屬本章新增）。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>讀完本章後、你應該能：&lt;/p>
&lt;ol>
&lt;li>區分四種 RAG deployment 方案（純前端 / edge serverless / RAG SaaS / 純文字 search）。&lt;/li>
&lt;li>對自己場景判斷該選哪個方案、看資料量 / 隱私 / 預算。&lt;/li>
&lt;li>認識靜態場景特有的資安議題：API key 暴露、CORS、abuse、第三方 SaaS 供應鏈、client-side 模型完整性。&lt;/li>
&lt;li>知道哪些資安議題在 &lt;a href="https://tarrragon.github.io/blog/llm/06-security/" data-link-title="模組六：本地 LLM 的安全與權限" data-link-desc="個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈、推論伺服器綁定、tool use 副作用、prompt injection 在 IDE、跨雲端 / 本地資料邊界">模組六&lt;/a> 已覆蓋、哪些是本章獨有。&lt;/li>
&lt;/ol>
&lt;h2 id="為什麼這個議題重要">為什麼這個議題重要&lt;/h2>
&lt;p>傳統 RAG 教材預設架構：&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-text" data-lang="text">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl">User → backend server → embedding API → vector DB → LLM API → response&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>需要 backend 可執行 server-side code、藏 API key、控制 rate limit。但個人開發者場景常見的 deployment：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>場景&lt;/th>
 &lt;th>Backend？&lt;/th>
 &lt;th>部署方式&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>個人 Hugo blog&lt;/td>
 &lt;td>無&lt;/td>
 &lt;td>GitHub Pages / Cloudflare Pages&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>開源專案 docs site&lt;/td>
 &lt;td>無&lt;/td>
 &lt;td>GitHub Pages / Netlify / Vercel&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>商品 landing page&lt;/td>
 &lt;td>無&lt;/td>
 &lt;td>CDN + S3&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Static-export Next.js / Astro&lt;/td>
 &lt;td>無&lt;/td>
 &lt;td>同上&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>這些場景跟「個人 dev 跑本地 LLM」並列、是教材的合理覆蓋面。&lt;/p>
&lt;h2 id="四種-deployment-方案總覽">四種 deployment 方案總覽&lt;/h2>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-text" data-lang="text">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl"> embedding vector LLM call
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">2&lt;/span>&lt;span class="cl"> 搜尋 DB
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">3&lt;/span>&lt;span class="cl">方案 1 純前端 browser browser browser（WebLLM）或 user-key 直 call
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">4&lt;/span>&lt;span class="cl">方案 2 edge serverless edge fn edge DB edge fn → LLM API
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">5&lt;/span>&lt;span class="cl">方案 3 RAG SaaS SaaS SaaS SaaS（或自 call）
&lt;/span>&lt;/span>&lt;span class="line">&lt;span class="ln">6&lt;/span>&lt;span class="cl">方案 4 純文字 search N/A static idx N/A（不是 RAG）&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>四方案快速對比：&lt;/p></description><content:encoded><![CDATA[<p><a href="/blog/llm/04-applications/rag-principles/" data-link-title="4.1 RAG 原理：retrieval &#43; augmentation 模式" data-link-desc="為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因">4.1 RAG</a> 跟 <a href="/blog/llm/04-applications/embedding-model-internals/" data-link-title="4.12 Embedding model 內部：訓練、選型、in-domain fine-tune" data-link-desc="Embedding model 怎麼訓練（contrastive learning &#43; hard negative mining）、怎麼挑（MTEB / 大小 / domain）、何時該自己 fine-tune">4.12 embedding model</a> 寫的是「RAG 在做什麼、embedding 怎麼選」、預設「有 backend server」可跑 embedding 跟 LLM。但實際大量場景是<strong>沒 backend</strong> — 個人 blog（Hugo / Jekyll / Astro）想加智能搜尋、docs site 想做 LLM 對話、demo 想離線跑。本章把這條「靜態 / serverless RAG」路線拆成四個方案、配合靜態場景<strong>特有的資安議題</strong>（這些議題模組六沒覆蓋、屬本章新增）。</p>
<h2 id="本章目標">本章目標</h2>
<p>讀完本章後、你應該能：</p>
<ol>
<li>區分四種 RAG deployment 方案（純前端 / edge serverless / RAG SaaS / 純文字 search）。</li>
<li>對自己場景判斷該選哪個方案、看資料量 / 隱私 / 預算。</li>
<li>認識靜態場景特有的資安議題：API key 暴露、CORS、abuse、第三方 SaaS 供應鏈、client-side 模型完整性。</li>
<li>知道哪些資安議題在 <a href="/blog/llm/06-security/" data-link-title="模組六：本地 LLM 的安全與權限" data-link-desc="個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈、推論伺服器綁定、tool use 副作用、prompt injection 在 IDE、跨雲端 / 本地資料邊界">模組六</a> 已覆蓋、哪些是本章獨有。</li>
</ol>
<h2 id="為什麼這個議題重要">為什麼這個議題重要</h2>
<p>傳統 RAG 教材預設架構：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">User → backend server → embedding API → vector DB → LLM API → response</span></span></code></pre></div><p>需要 backend 可執行 server-side code、藏 API key、控制 rate limit。但個人開發者場景常見的 deployment：</p>
<table>
  <thead>
      <tr>
          <th>場景</th>
          <th>Backend？</th>
          <th>部署方式</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>個人 Hugo blog</td>
          <td>無</td>
          <td>GitHub Pages / Cloudflare Pages</td>
      </tr>
      <tr>
          <td>開源專案 docs site</td>
          <td>無</td>
          <td>GitHub Pages / Netlify / Vercel</td>
      </tr>
      <tr>
          <td>商品 landing page</td>
          <td>無</td>
          <td>CDN + S3</td>
      </tr>
      <tr>
          <td>Static-export Next.js / Astro</td>
          <td>無</td>
          <td>同上</td>
      </tr>
  </tbody>
</table>
<p>這些場景跟「個人 dev 跑本地 LLM」並列、是教材的合理覆蓋面。</p>
<h2 id="四種-deployment-方案總覽">四種 deployment 方案總覽</h2>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">                          embedding   vector       LLM call
</span></span><span class="line"><span class="ln">2</span><span class="cl">                          搜尋          DB
</span></span><span class="line"><span class="ln">3</span><span class="cl">方案 1 純前端            browser       browser     browser（WebLLM）或 user-key 直 call
</span></span><span class="line"><span class="ln">4</span><span class="cl">方案 2 edge serverless   edge fn       edge DB     edge fn → LLM API
</span></span><span class="line"><span class="ln">5</span><span class="cl">方案 3 RAG SaaS          SaaS          SaaS        SaaS（或自 call）
</span></span><span class="line"><span class="ln">6</span><span class="cl">方案 4 純文字 search     N/A           static idx  N/A（不是 RAG）</span></span></code></pre></div><p>四方案快速對比：</p>
<table>
  <thead>
      <tr>
          <th>維度</th>
          <th>1 純前端</th>
          <th>2 edge serverless</th>
          <th>3 SaaS</th>
          <th>4 純文字 search</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>是否「真 RAG」</td>
          <td>是</td>
          <td>是</td>
          <td>是</td>
          <td><strong>否</strong>（無 LLM）</td>
      </tr>
      <tr>
          <td>隱私</td>
          <td>最強（不離 browser）</td>
          <td>中（信 edge provider）</td>
          <td>弱（信 SaaS）</td>
          <td>最強</td>
      </tr>
      <tr>
          <td>Cost</td>
          <td>完全 zero（build 一次）</td>
          <td>每 query 付 edge + LLM</td>
          <td>免費 tier / 按量計費</td>
          <td>Zero</td>
      </tr>
      <tr>
          <td>規模上限</td>
          <td>&lt; 10K chunks</td>
          <td>1M+</td>
          <td>視服務</td>
          <td>視工具</td>
      </tr>
      <tr>
          <td>開發複雜度</td>
          <td>中（要 build pipeline）</td>
          <td>中高（要寫 edge fn）</td>
          <td>低（API 直接用）</td>
          <td>低</td>
      </tr>
      <tr>
          <td>主要資安議題</td>
          <td>模型完整性、user-key 暴露</td>
          <td>edge provider 信任</td>
          <td>SaaS 信任 + 供應鏈</td>
          <td>較少（無 LLM）</td>
      </tr>
  </tbody>
</table>
<h2 id="方案-1純前端-ragbrowser-side-everything">方案 1：純前端 RAG（browser-side everything）</h2>
<p>整個 RAG pipeline 都跑在使用者瀏覽器：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln"> 1</span><span class="cl">Build time（Hugo build / CI pipeline）：
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">  content/*.md
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">    ↓ 抽段、chunk
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">    ↓ embedding model（Node.js 版 sentence-transformers）
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">  embeddings.json（每個 chunk 一個 vector）
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">    ↓ 跟 HTML 一起 deploy
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">Runtime（user browser）：
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">  User query
</span></span><span class="line"><span class="ln">10</span><span class="cl">    ↓ load @xenova/transformers + embeddings.json（首訪載 ~50MB）
</span></span><span class="line"><span class="ln">11</span><span class="cl">    ↓ embed query in browser
</span></span><span class="line"><span class="ln">12</span><span class="cl">    ↓ cosine similarity vs embeddings.json
</span></span><span class="line"><span class="ln">13</span><span class="cl">  top-K chunks
</span></span><span class="line"><span class="ln">14</span><span class="cl">    ↓ LLM call（兩條子路線、見下）
</span></span><span class="line"><span class="ln">15</span><span class="cl">  Response in browser</span></span></code></pre></div><p>LLM 的兩條子路線：</p>
<table>
  <thead>
      <tr>
          <th>子路線</th>
          <th>機制</th>
          <th>取捨</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong><a href="/blog/llm/knowledge-cards/client-side-llm/" data-link-title="Client-Side LLM / Embedding" data-link-desc="在 browser 內直接跑 LLM 或 embedding model 的 paradigm、靜態網站做 RAG 的關鍵基底">Client-side LLM</a></strong></td>
          <td>WebLLM / wllama 跑 &lt; 4B model</td>
          <td>完全離線、首訪載 1-3GB 模型、隱私最強</td>
      </tr>
      <tr>
          <td><strong>User 自帶 API key</strong></td>
          <td>前端讀 localStorage 的 key、直 call API</td>
          <td>高品質（雲端旗艦）、key 暴露、需要使用者授信</td>
      </tr>
  </tbody>
</table>
<p>實作概要：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-bash" data-lang="bash"><span class="line"><span class="ln">1</span><span class="cl"><span class="c1"># Build time（Node.js script）</span>
</span></span><span class="line"><span class="ln">2</span><span class="cl">npx @xenova/transformers-cli embed content/*.md &gt; static/embeddings.json
</span></span><span class="line"><span class="ln">3</span><span class="cl">
</span></span><span class="line"><span class="ln">4</span><span class="cl"><span class="c1"># Frontend（簡化版）</span>
</span></span><span class="line"><span class="ln">5</span><span class="cl">import <span class="o">{</span> pipeline <span class="o">}</span> from <span class="s1">&#39;@xenova/transformers&#39;</span><span class="p">;</span>
</span></span><span class="line"><span class="ln">6</span><span class="cl">const <span class="nv">embedder</span> <span class="o">=</span> await pipeline<span class="o">(</span><span class="s1">&#39;feature-extraction&#39;</span>, <span class="s1">&#39;nomic-embed-text-v1.5&#39;</span><span class="o">)</span><span class="p">;</span>
</span></span><span class="line"><span class="ln">7</span><span class="cl">const <span class="nv">queryVec</span> <span class="o">=</span> await embedder<span class="o">(</span>userQuery, <span class="o">{</span> pooling: <span class="s1">&#39;mean&#39;</span> <span class="o">})</span><span class="p">;</span>
</span></span><span class="line"><span class="ln">8</span><span class="cl">const <span class="nv">ranked</span> <span class="o">=</span> embeddings.map<span class="o">(</span><span class="nv">c</span> <span class="o">=</span>&gt; <span class="o">({</span> ...c, score: cosineSim<span class="o">(</span>c.vec, queryVec.data<span class="o">)</span> <span class="o">}))</span>
</span></span><span class="line"><span class="ln">9</span><span class="cl">                          .sort<span class="o">((</span>a,b<span class="o">)</span> <span class="o">=</span>&gt; b.score - a.score<span class="o">)</span>.slice<span class="o">(</span>0, 5<span class="o">)</span><span class="p">;</span></span></span></code></pre></div><p>規模上限：</p>
<ul>
<li>&lt; 1000 chunks：embeddings.json ~ 4MB（1024-dim float32）、輕鬆</li>
<li>1K-10K：~40MB、首訪載入慢但可接受</li>
<li>10K+：純前端開始勉強、考慮方案 2</li>
</ul>
<p><strong>適合場景</strong>：個人 blog、docs site、demo、隱私敏感、規模 &lt; 10K chunks。</p>
<h2 id="方案-2靜態--edge-serverless">方案 2：靜態 + edge serverless</h2>
<p>「靜態主站 + edge function 處理動態請求」：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln"> 1</span><span class="cl">靜態前端（HTML / JS、Hugo / Astro）
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">   ↓ fetch /api/rag
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">Edge function（Cloudflare Workers / Vercel Edge / Netlify Functions）
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">Embedding API（OpenAI / Voyage）
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">Vector DB（Cloudflare Vectorize / Pinecone / Turso vector / Upstash Vector）
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">LLM API（OpenAI / Anthropic / Cloudflare AI Gateway）
</span></span><span class="line"><span class="ln">10</span><span class="cl">   ↓ response
</span></span><span class="line"><span class="ln">11</span><span class="cl">靜態前端</span></span></code></pre></div><p>對使用者體感跟「有 backend」一樣、但你不用維護 server / 不用 sysadmin。</p>
<p>主流元件搭配：</p>
<table>
  <thead>
      <tr>
          <th>元件</th>
          <th>Cloudflare 全家桶</th>
          <th>Vercel / 其他</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Edge runtime</td>
          <td>Workers</td>
          <td>Vercel Edge / Netlify Functions</td>
      </tr>
      <tr>
          <td>Vector DB</td>
          <td>Cloudflare Vectorize</td>
          <td>Pinecone / Turso / Upstash</td>
      </tr>
      <tr>
          <td>Embedding</td>
          <td>Workers AI 內建模型 / OpenAI</td>
          <td>OpenAI / Voyage</td>
      </tr>
      <tr>
          <td>LLM</td>
          <td>Workers AI / AI Gateway 轉發</td>
          <td>OpenAI / Anthropic</td>
      </tr>
  </tbody>
</table>
<p>關鍵特性：</p>
<ol>
<li><strong>API key 不暴露在 browser</strong>：edge function 內讀環境變數、安全</li>
<li><strong>可加 rate limit</strong>：edge function 內判斷 client IP / user agent、避免 abuse</li>
<li><strong>Build-time index 仍重要</strong>：embedding ingestion 通常在 build 階段、不在 runtime</li>
<li><strong>Edge cold start</strong>：第一次 query latency 略高（~100ms 額外）、後續 hot 路徑快</li>
</ol>
<p><strong>適合場景</strong>：規模 1K-100K chunks、想保留近 backend 體驗、可接受少量 cost。這條路線一旦升級到有 backend 的 vector DB、storage 選型（index 結構、維度、成本）就回到 <a href="/blog/llm/04-applications/vector-storage-engineering/" data-link-title="4.22 RAG storage 工程：從 pickle 到 vector database 的選型判讀" data-link-desc="RAG storage backend 選型：規模到哪個階段該從 in-memory 升級到 vector DB、dependency chain 如何收窄選項">4.22 RAG storage 工程</a> 的判讀。</p>
<h2 id="方案-3靜態--rag-saas">方案 3：靜態 + RAG SaaS</h2>
<p>把整個 RAG stack 外包：</p>
<table>
  <thead>
      <tr>
          <th>服務</th>
          <th>角色</th>
          <th>免費 tier 上限</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Algolia</td>
          <td>搜尋 + 向量檢索一條龍、build time 同步</td>
          <td>10K records、10K search / month</td>
      </tr>
      <tr>
          <td>Pinecone Cloud</td>
          <td>純 vector DB、自己 call embedding + LLM</td>
          <td>100K vectors（starter）</td>
      </tr>
      <tr>
          <td>Weaviate Cloud</td>
          <td>同上、hybrid search 內建</td>
          <td>14 天 trial</td>
      </tr>
      <tr>
          <td>MeiliSearch Cloud</td>
          <td>BM25 + vector hybrid</td>
          <td>試用</td>
      </tr>
  </tbody>
</table>
<p>API key 設計：</p>
<ul>
<li><strong>search-only key</strong>：只能查詢、無寫入權限、<strong>可安全暴露在 browser</strong>（這是設計支援的）</li>
<li><strong>admin key</strong>：build time CI 用、有寫入權限、必須藏 server-side</li>
</ul>
<p>前端範例（Algolia）：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-javascript" data-lang="javascript"><span class="line"><span class="ln">1</span><span class="cl"><span class="kr">const</span> <span class="nx">client</span> <span class="o">=</span> <span class="nx">algoliasearch</span><span class="p">(</span><span class="s1">&#39;APP_ID&#39;</span><span class="p">,</span> <span class="s1">&#39;SEARCH_ONLY_KEY&#39;</span><span class="p">);</span>  <span class="c1">// 可公開
</span></span></span><span class="line"><span class="ln">2</span><span class="cl"><span class="c1"></span><span class="kr">const</span> <span class="nx">index</span> <span class="o">=</span> <span class="nx">client</span><span class="p">.</span><span class="nx">initIndex</span><span class="p">(</span><span class="s1">&#39;my-blog&#39;</span><span class="p">);</span>
</span></span><span class="line"><span class="ln">3</span><span class="cl"><span class="kr">const</span> <span class="p">{</span> <span class="nx">hits</span> <span class="p">}</span> <span class="o">=</span> <span class="kr">await</span> <span class="nx">index</span><span class="p">.</span><span class="nx">search</span><span class="p">(</span><span class="nx">userQuery</span><span class="p">,</span> <span class="p">{</span> <span class="nx">hitsPerPage</span><span class="o">:</span> <span class="mi">5</span> <span class="p">});</span></span></span></code></pre></div><p><strong>適合場景</strong>：想最快上線、不在乎 vendor lock-in、規模中小、retrieval-only（不需要 LLM 對話）。</p>
<h2 id="方案-4靜態--純文字-search不是真-rag">方案 4：靜態 + 純文字 search（不是真 RAG）</h2>
<p>Pagefind、Stork、lunr.js、FlexSearch — build time 產靜態 search index、純前端查詢。</p>
<table>
  <thead>
      <tr>
          <th>工具</th>
          <th>機制</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Pagefind</td>
          <td>static-first、自動 chunking、CJK 友善</td>
      </tr>
      <tr>
          <td>Stork</td>
          <td>Rust 寫的 keyword search、輕量</td>
      </tr>
      <tr>
          <td>lunr.js</td>
          <td>純 JS、tf-idf BM25 風格</td>
      </tr>
      <tr>
          <td>FlexSearch</td>
          <td>同上、體積更小</td>
      </tr>
  </tbody>
</table>
<p><strong>這不是 RAG</strong>：</p>
<ol>
<li><strong>無 embedding similarity</strong>：keyword / fuzzy match、不是語意相似</li>
<li><strong>無 LLM augmentation</strong>：只列文章連結、不生成回答</li>
<li><strong>算 retrieval 的「字面」變體</strong>：見 <a href="/blog/llm/04-applications/rag-principles/" data-link-title="4.1 RAG 原理：retrieval &#43; augmentation 模式" data-link-desc="為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因">4.1 RAG</a> 的「語意 vs 字面」段</li>
</ol>
<p><strong>適合場景</strong>：blog 內搜尋只需要找文章、不需要對話、極致 zero-cost。</p>
<h2 id="規模門檻什麼時候該升級方案">規模門檻：什麼時候該升級方案</h2>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">&lt; 1K chunks                    → 方案 1 純前端、最簡單
</span></span><span class="line"><span class="ln">2</span><span class="cl">1K - 10K chunks                → 方案 1 或 方案 4
</span></span><span class="line"><span class="ln">3</span><span class="cl">10K - 100K chunks              → 方案 2 edge serverless
</span></span><span class="line"><span class="ln">4</span><span class="cl">100K+ chunks                   → 完整 backend RAG（不再是「靜態」場景）
</span></span><span class="line"><span class="ln">5</span><span class="cl">非 RAG、只要找文章             → 方案 4（Pagefind 等）</span></span></code></pre></div><h2 id="靜態場景特有的資安議題">靜態場景特有的資安議題</h2>
<p>本章節最重要的部分。靜態 / serverless RAG 有些議題模組六沒覆蓋、要在本章補。</p>
<h3 id="1-api-key-暴露--靜態場景的根本問題">1. API key 暴露 — 靜態場景的根本問題</h3>
<p><strong>核心衝突</strong>：靜態網站沒 server-side runtime、藏不了 secret。任何寫在前端 JS / 編進 HTML 的東西、使用者按 F12 都看得到。</p>
<p>對應到 RAG：</p>
<table>
  <thead>
      <tr>
          <th>元件</th>
          <th>能否前端持有 key</th>
          <th>緩解</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Embedding API（生成方）</td>
          <td>否（admin key 不該暴露）</td>
          <td>build time 用、不放前端</td>
      </tr>
      <tr>
          <td>LLM API（生成方）</td>
          <td>否</td>
          <td>改方案 2 用 edge、或讓使用者自帶 key</td>
      </tr>
      <tr>
          <td>Vector DB（read）</td>
          <td><strong>可</strong>（search-only key 設計支援）</td>
          <td>API 設計時就分權、search-only 可公開</td>
      </tr>
      <tr>
          <td>完整 LLM 跑在前端</td>
          <td>N/A（無 server-side key）</td>
          <td>方案 1 的 Client-side LLM 子路線</td>
      </tr>
  </tbody>
</table>
<p>如果要 LLM 對話功能、三條合法路線：</p>
<ol>
<li><strong>使用者自帶 API key</strong>（如 Anthropic / OpenAI）、存 localStorage、前端直接 call API — 適合 power user、需要使用者授信</li>
<li><strong>WebLLM / wllama 跑前端 LLM</strong> — 模型在 browser、不需 server-side key</li>
<li><strong>方案 2 edge serverless</strong> — key 藏在 edge function、就不是純靜態了</li>
</ol>
<p>寫死 API key 在前端 JS 等於把 key 公開、會被 scraper 撿走燒爆 quota — 這是 <strong>anti-pattern</strong>、跟 <a href="/blog/llm/06-security/cross-cloud-local-data-boundary/" data-link-title="6.4 跨雲端 / 本地的資料邊界" data-link-desc="個人 dev 場景下混用雲端 LLM 跟本地 LLM 時的 prompt 洩漏點：Continue.dev 多 provider 設定、隱私資料流、按敏感度分流的判讀">6.4 跨雲端 / 本地資料邊界</a> 提到「API key 寫死 config」的延伸版（前端更嚴重、所有訪客都看得到）。</p>
<h3 id="2-user-query-隱私">2. User query 隱私</h3>
<p>靜態場景的 query 走向：</p>
<table>
  <thead>
      <tr>
          <th>方案</th>
          <th>Query 走向</th>
          <th>誰能看到</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>1 純前端 + WebLLM</td>
          <td>從不離 browser</td>
          <td>只有使用者本人</td>
      </tr>
      <tr>
          <td>1 + user API key</td>
          <td>Browser → 雲端 vendor</td>
          <td>該 vendor（依政策）</td>
      </tr>
      <tr>
          <td>2 edge serverless</td>
          <td>Browser → edge → 雲端 API</td>
          <td>Edge provider + LLM vendor</td>
      </tr>
      <tr>
          <td>3 SaaS</td>
          <td>Browser → SaaS</td>
          <td>SaaS provider</td>
      </tr>
  </tbody>
</table>
<p>對應 framing 跟 <a href="/blog/llm/00-foundations/privacy-data-flow/" data-link-title="0.7 隱私 / 資安的資料流原理" data-link-desc="從「位置」到「資料流」的思考升級：信任邊界、合約模型、零信任原則套用到 LLM 工作流">0.7 隱私資料流</a> 同源 — 但靜態場景的特殊性是「<strong>前端直接出去</strong>」、不像 backend 場景可以加一層中介控制。</p>
<p>特別注意：</p>
<ol>
<li><strong>方案 3 SaaS 的 query 隱私</strong>：Algolia / Pinecone 都會 log query、依政策可能用於改進服務；對隱私敏感場景不適合</li>
<li><strong>Edge provider 的 region</strong>：Cloudflare Workers 的 edge node 可能在跟使用者不同 region 處理、跨境資料法規（GDPR 等）要考慮</li>
<li><strong>Browser extension 偷 query</strong>：使用者裝的 plugin 可能 access 整個頁面、包含 RAG 介面內的 query</li>
</ol>
<h3 id="3-cors--同源策略--browser-特有的安全模型">3. CORS / 同源策略 — Browser 特有的安全模型</h3>
<p>靜態前端 call 任意 API 會撞 CORS（Cross-Origin Resource Sharing）：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">靜態網站：https://my-blog.com
</span></span><span class="line"><span class="ln">2</span><span class="cl">要 call：https://api.openai.com/v1/...
</span></span><span class="line"><span class="ln">3</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln">4</span><span class="cl">Browser 檢查 OpenAI 是否在 Access-Control-Allow-Origin 含 my-blog.com
</span></span><span class="line"><span class="ln">5</span><span class="cl">   ↓
</span></span><span class="line"><span class="ln">6</span><span class="cl">OpenAI 預設允許所有 origin（為了讓前端 SDK 能用）→ 通過
</span></span><span class="line"><span class="ln">7</span><span class="cl">某些 API（Anthropic 早期版本）不允許 browser 直 call → 失敗、必須走 edge</span></span></code></pre></div><p>判讀：</p>
<ul>
<li><strong>能在 browser 直 call 的 API</strong>：OpenAI、Voyage、Algolia（search-only）等明確設計 browser-friendly 的服務</li>
<li><strong>不能 browser 直 call、要 edge proxy</strong>：許多企業 LLM API、私有 vector DB、需要 server-only credentials 的服務</li>
</ul>
<p>CORS 不是「資安漏洞」、是 browser 對「JS 從一個網站 call 另一個網站」的設計約束、用來保護使用者。要繞 CORS 要嗎服務商配合（設 ACAO）、要嗎用 edge function proxy。</p>
<h3 id="4-第三方-saas-信任--跟-60-同源對象換">4. 第三方 SaaS 信任 — 跟 6.0 同源、對象換</h3>
<p><a href="/blog/llm/06-security/model-supply-chain-trust/" data-link-title="6.0 模型供應鏈與信任邊界" data-link-desc="個人 dev 用本地 LLM 時的模型權重來源信任：GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查">6.0 模型供應鏈與信任邊界</a> 處理的是「<strong>模型權重的信任</strong>」。靜態 RAG SaaS（Algolia / Pinecone / Weaviate Cloud）引入另一條供應鏈：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln"> 1</span><span class="cl">模型供應鏈（6.0 覆蓋）：
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">  原作者 → quantizer → registry → 你機器
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">RAG SaaS 供應鏈（本章新增）：
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">  你的 content → SaaS embedding service → SaaS vector DB → SaaS retrieval
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">    └──────── 全程在 SaaS 內、你信任 SaaS 沒做以下事 ────────┘
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">              - 把你 index 用於訓練他們自己的模型
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">              - 把你 query log 賣給第三方
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">              - 沒做適當 isolation（你跟其他客戶的資料）
</span></span><span class="line"><span class="ln">10</span><span class="cl">              - 沒處理好 supply chain（他們用的 base embedding model）</span></span></code></pre></div><p>判讀類似 <a href="/blog/llm/00-foundations/privacy-data-flow/" data-link-title="0.7 隱私 / 資安的資料流原理" data-link-desc="從「位置」到「資料流」的思考升級：信任邊界、合約模型、零信任原則套用到 LLM 工作流">0.7 物理 vs 合約保證</a>：本地方案是物理保證（資料不離 browser）、SaaS 方案是合約保證（信 SaaS 的 ToS）。</p>
<h3 id="5-rate-limit--abuse--前端被-scrape-後濫用">5. Rate limit / abuse — 前端被 scrape 後濫用</h3>
<p>靜態 RAG 的特殊 abuse 路徑：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">攻擊者掃到你的 demo blog
</span></span><span class="line"><span class="ln">2</span><span class="cl">   ↓ 找到前端載入的 embedding endpoint / LLM endpoint
</span></span><span class="line"><span class="ln">3</span><span class="cl">   ↓ 直接從攻擊者 server 重複 call（不經 browser）
</span></span><span class="line"><span class="ln">4</span><span class="cl">   ↓ 你的 LLM API quota 燒爆 / SaaS 配額耗光</span></span></code></pre></div><p>緩解：</p>
<ol>
<li><strong>方案 2 edge</strong> + 加 rate limit by IP / token bucket：edge function 內 reject 過量請求</li>
<li><strong>方案 1 純前端 + WebLLM</strong>：根本沒 server-side endpoint 可被 abuse、最安全</li>
<li><strong>方案 3 SaaS</strong> + 用 search-only key 並設 query 上限：SaaS 通常內建 quota</li>
<li><strong>CAPTCHA / Turnstile</strong>：邊緣防護</li>
</ol>
<p>絕對不該做：把 OpenAI / Anthropic API key 寫在前端 JS、想用 rate limit 阻擋 — 攻擊者拿到 key 後不會經過你的 rate limit。</p>
<h3 id="6-client-side-llm-的模型完整性">6. Client-side LLM 的模型完整性</h3>
<p><a href="/blog/llm/knowledge-cards/client-side-llm/" data-link-title="Client-Side LLM / Embedding" data-link-desc="在 browser 內直接跑 LLM 或 embedding model 的 paradigm、靜態網站做 RAG 的關鍵基底">Client-side LLM</a> 把幾 GB 模型權重下載到 browser、引入新的供應鏈面：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">你的網站
</span></span><span class="line"><span class="ln">2</span><span class="cl">   ↓ &lt;script&gt; 載入 WebLLM runtime（CDN）
</span></span><span class="line"><span class="ln">3</span><span class="cl">   ↓ runtime 從 HuggingFace CDN 抓 model weights
</span></span><span class="line"><span class="ln">4</span><span class="cl">   ↓ 使用者 browser 跑模型</span></span></code></pre></div><p>風險：</p>
<ol>
<li><strong>CDN 被 compromise</strong>：WebLLM runtime 或 model weights 在 CDN 上被換、注入 backdoor</li>
<li><strong>HTTPS 之外無額外驗證</strong>：不像本地 <a href="/blog/llm/06-security/model-supply-chain-trust/" data-link-title="6.0 模型供應鏈與信任邊界" data-link-desc="個人 dev 用本地 LLM 時的模型權重來源信任：GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查">GGUF + hash 比對</a>、browser 載模型純信 CDN + HTTPS</li>
<li><strong>使用者本機沒 inventory 記錄</strong>：跟 <a href="/blog/llm/06-security/model-supply-chain-trust/" data-link-title="6.0 模型供應鏈與信任邊界" data-link-desc="個人 dev 用本地 LLM 時的模型權重來源信任：GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查">6.0</a> 推薦的「下載後記 hash」對比、browser 沒這機制</li>
</ol>
<p>緩解：</p>
<ol>
<li><strong>Subresource Integrity（SRI）</strong>：HTML 的 <code>&lt;script integrity=&quot;sha384-...&quot;&gt;</code> 屬性、browser 自動驗證 hash</li>
<li><strong>CSP（Content Security Policy）</strong>：限制可載入的 script / image source、減少 supply chain attack 面</li>
<li><strong>挑大廠 CDN</strong>：Cloudflare / jsdelivr / unpkg 等被 compromise 的歷史紀錄較少</li>
</ol>
<p>跟 <a href="/blog/llm/06-security/model-supply-chain-trust/" data-link-title="6.0 模型供應鏈與信任邊界" data-link-desc="個人 dev 用本地 LLM 時的模型權重來源信任：GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查">6.0</a> 的關係：6.0 講「本機跑的 GGUF 模型供應鏈」、本章補「browser 跑的 client-side 模型供應鏈」— 兩種場景的 framing 一致、但具體威脅面跟工具不同。</p>
<h2 id="跟模組六的-routing">跟模組六的 routing</h2>
<p>本章資安段跟既有 <a href="/blog/llm/06-security/" data-link-title="模組六：本地 LLM 的安全與權限" data-link-desc="個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈、推論伺服器綁定、tool use 副作用、prompt injection 在 IDE、跨雲端 / 本地資料邊界">模組六</a> 的對應：</p>
<table>
  <thead>
      <tr>
          <th>議題</th>
          <th>06 對應章節</th>
          <th>本章補的角度</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>模型 / 供應鏈信任</td>
          <td><a href="/blog/llm/06-security/model-supply-chain-trust/" data-link-title="6.0 模型供應鏈與信任邊界" data-link-desc="個人 dev 用本地 LLM 時的模型權重來源信任：GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查">6.0</a></td>
          <td>client-side 模型分發新形態</td>
      </tr>
      <tr>
          <td>Server 綁定</td>
          <td><a href="/blog/llm/06-security/inference-server-binding/" data-link-title="6.1 推論伺服器的綁定與暴露範圍" data-link-desc="個人 dev 場景下 llama-server / Ollama / LM Studio 的 bind address 判讀：127.0.0.1 vs LAN vs 反代、預設安全、誤開放給內網的後果">6.1</a></td>
          <td>靜態場景無 server、議題消失</td>
      </tr>
      <tr>
          <td>Tool use 權限</td>
          <td><a href="/blog/llm/06-security/tool-use-permission-model/" data-link-title="6.2 tool use 與 MCP server 的權限模型" data-link-desc="個人 dev 場景下 tool use / MCP server 的副作用權限：檔案系統 / shell / 網路存取邊界、第三方 MCP 信任、副作用的可逆性">6.2</a></td>
          <td>browser-side tool use（少數場景）</td>
      </tr>
      <tr>
          <td>Prompt injection</td>
          <td><a href="/blog/llm/06-security/prompt-injection-in-ide/" data-link-title="6.3 IDE 場景的 prompt injection" data-link-desc="個人 dev 場景下 IDE 寫 code 工作流的 prompt injection：codebase 內容、外部文件、剪貼簿作為攻擊面、跟雲端 LLM 場景的差異">6.3</a></td>
          <td>靜態 RAG 仍適用、source 變 web fetched</td>
      </tr>
      <tr>
          <td>跨雲端 / 本地資料邊界</td>
          <td><a href="/blog/llm/06-security/cross-cloud-local-data-boundary/" data-link-title="6.4 跨雲端 / 本地的資料邊界" data-link-desc="個人 dev 場景下混用雲端 LLM 跟本地 LLM 時的 prompt 洩漏點：Continue.dev 多 provider 設定、隱私資料流、按敏感度分流的判讀">6.4</a></td>
          <td>靜態場景 query 走向跟 backend 場景不同</td>
      </tr>
      <tr>
          <td>Production routing</td>
          <td><a href="/blog/llm/06-security/routing-to-production-security/" data-link-title="6.5 跨進 production 的 routing 中樞" data-link-desc="個人 dev → 團隊 → production LLM 服務的三層演化、跟 backend/07 對應卡片的 routing 清單">6.5</a></td>
          <td>從個人靜態 RAG 升級到 production</td>
      </tr>
      <tr>
          <td><strong>API key 暴露 / browser</strong></td>
          <td>（無）</td>
          <td><strong>本章獨有</strong></td>
      </tr>
      <tr>
          <td><strong>CORS / 同源策略</strong></td>
          <td>（無）</td>
          <td><strong>本章獨有</strong></td>
      </tr>
      <tr>
          <td><strong>靜態場景 abuse / rate limit</strong></td>
          <td>（無、跟 6.1 server 議題不同）</td>
          <td><strong>本章獨有</strong></td>
      </tr>
  </tbody>
</table>
<h2 id="判讀流程">判讀流程</h2>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln"> 1</span><span class="cl">你的場景：
</span></span><span class="line"><span class="ln"> 2</span><span class="cl">  ├─ 有 backend？
</span></span><span class="line"><span class="ln"> 3</span><span class="cl">  │    └─ 是 → 用 4.0 RAG + 4.8 embedding 主章節、本章不適用
</span></span><span class="line"><span class="ln"> 4</span><span class="cl">  │    └─ 否 → 繼續
</span></span><span class="line"><span class="ln"> 5</span><span class="cl">  │
</span></span><span class="line"><span class="ln"> 6</span><span class="cl">  ├─ 規模？
</span></span><span class="line"><span class="ln"> 7</span><span class="cl">  │    ├─ &lt; 1K chunks → 方案 1 純前端
</span></span><span class="line"><span class="ln"> 8</span><span class="cl">  │    ├─ 1K-10K → 方案 1（embeddings.json ~ 40MB 仍可接受）
</span></span><span class="line"><span class="ln"> 9</span><span class="cl">  │    ├─ 10K-100K → 方案 2 edge serverless
</span></span><span class="line"><span class="ln">10</span><span class="cl">  │    └─ 100K+ → 不再是靜態場景、回 backend
</span></span><span class="line"><span class="ln">11</span><span class="cl">  │
</span></span><span class="line"><span class="ln">12</span><span class="cl">  ├─ 需要 LLM 對話、不只 retrieval？
</span></span><span class="line"><span class="ln">13</span><span class="cl">  │    ├─ 是 + 隱私第一 → 方案 1 + WebLLM
</span></span><span class="line"><span class="ln">14</span><span class="cl">  │    ├─ 是 + 品質第一 → 方案 1 + user-key 或 方案 2
</span></span><span class="line"><span class="ln">15</span><span class="cl">  │    └─ 否（只要找文章） → 方案 4 純文字 search
</span></span><span class="line"><span class="ln">16</span><span class="cl">  │
</span></span><span class="line"><span class="ln">17</span><span class="cl">  └─ 預算 / vendor lock-in 容忍度？
</span></span><span class="line"><span class="ln">18</span><span class="cl">       ├─ 完全 zero-cost、無 vendor → 方案 1 純前端
</span></span><span class="line"><span class="ln">19</span><span class="cl">       ├─ 接受少量 cost、不想自己寫太多 → 方案 3 SaaS
</span></span><span class="line"><span class="ln">20</span><span class="cl">       └─ 接受少量 cost、想自己控 → 方案 2 edge</span></span></code></pre></div><h2 id="不在本章內的主題">不在本章內的主題</h2>
<ol>
<li><strong>完整 backend RAG</strong>：see <a href="/blog/llm/04-applications/rag-principles/" data-link-title="4.1 RAG 原理：retrieval &#43; augmentation 模式" data-link-desc="為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因">4.1 RAG 原理</a> 跟 <a href="/blog/llm/04-applications/embedding-model-internals/" data-link-title="4.12 Embedding model 內部：訓練、選型、in-domain fine-tune" data-link-desc="Embedding model 怎麼訓練（contrastive learning &#43; hard negative mining）、怎麼挑（MTEB / 大小 / domain）、何時該自己 fine-tune">4.12 embedding model</a></li>
<li><strong>具體 SaaS API 教學</strong>：Algolia / Pinecone 等 API 細節隨版本變、見各 SaaS 文件</li>
<li><strong>WebGPU 內部細節</strong>：GPU shader、WebGPU API 設計屬 web platform 議題、不在 LLM 教材範圍</li>
<li><strong>Production 多租戶 RAG 服務</strong>：屬 backend/07、本章 framing 是「個人 / 小團隊靜態網站」</li>
<li><strong>企業合規 deployment</strong>：HIPAA / GDPR / SOC 2 跟具體 SaaS / cloud provider 強相關、見 <a href="/blog/backend/07-security-data-protection/" data-link-title="模組七：資安與資料保護" data-link-desc="以問題驅動方式擴充資安知識網：先定義服務環節問題，再以案例作為觸發式參考">backend/07 合規卡片</a> 跟 <a href="/blog/llm/06-security/cross-cloud-local-data-boundary/" data-link-title="6.4 跨雲端 / 本地的資料邊界" data-link-desc="個人 dev 場景下混用雲端 LLM 跟本地 LLM 時的 prompt 洩漏點：Continue.dev 多 provider 設定、隱私資料流、按敏感度分流的判讀">6.4 跨雲端</a></li>
</ol>
<h2 id="何時過時--何時不過時">何時過時 / 何時不過時</h2>
<p><strong>不會過時的部分</strong>：</p>
<ul>
<li>四方案分類（純前端 / edge / SaaS / 純文字 search）</li>
<li>「靜態場景藏不了 secret」這個根本特性</li>
<li>API key 暴露 / CORS / abuse / 供應鏈 / 模型完整性 五大資安議題分類</li>
<li>跟 <a href="/blog/llm/06-security/" data-link-title="模組六：本地 LLM 的安全與權限" data-link-desc="個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈、推論伺服器綁定、tool use 副作用、prompt injection 在 IDE、跨雲端 / 本地資料邊界">模組六</a> 的 routing 關係</li>
</ul>
<p><strong>會變的部分</strong>：</p>
<ul>
<li>具體 SaaS / edge provider（Cloudflare Vectorize / Pinecone / Algolia 等持續演化）</li>
<li>Client-side LLM runtime（WebLLM / wllama / transformers.js）的能力上限</li>
<li>WebGPU 支援度跟 browser 標準</li>
<li>哪些 LLM vendor 允許 browser 直 call（CORS 政策會變）</li>
<li>純文字 search 工具（Pagefind 等持續改進）</li>
</ul>
<h2 id="下一步">下一步</h2>
<p>本章是 <a href="/blog/llm/04-applications/" data-link-title="模組四：LLM 應用層原理" data-link-desc="Prompt 技術光譜、RAG、tool use、agent、應用層協議、人機協作、multi-agent、workflow 編排、eval 設計：跨工具不變的概念地圖">模組四</a> 最後一章。讀完整個模組四、完整覆蓋 LLM 作為系統元件的設計取捨。下一步可進入 <a href="/blog/llm/05-discrete-gpu/" data-link-title="模組五：Windows / Linux &#43; 獨立 GPU" data-link-desc="消費級 PC（Windows / Linux &#43; NVIDIA / AMD 獨立 GPU）跑本地 LLM 的硬體判讀、MoE CPU 卸載、KV cache 量化與 llama.cpp 調參">模組五 PC 獨立 GPU</a> 或 <a href="/blog/llm/06-security/" data-link-title="模組六：本地 LLM 的安全與權限" data-link-desc="個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈、推論伺服器綁定、tool use 副作用、prompt injection 在 IDE、跨雲端 / 本地資料邊界">模組六 安全</a> 補本地 dev 視角的安全議題。</p>
]]></content:encoded></item></channel></rss>