<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Sensitive-Data on Tarragon</title><link>https://tarrragon.github.io/blog/tags/sensitive-data/</link><description>Recent content in Sensitive-Data on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/sensitive-data/index.xml" rel="self" type="application/rss+xml"/><item><title>Google DLP</title><link>https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/google-dlp/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/google-dlp/</guid><description>&lt;p>Google DLP（Data Loss Prevention、2023 重新命名為 &lt;em>Sensitive Data Protection / SDP&lt;/em>）是 GCP 原生的敏感資料 &lt;em>discovery + classification + transformation&lt;/em> 服務。它跟 &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/microsoft-purview/" data-link-title="Microsoft Purview" data-link-desc="Microsoft 跨 M365 / Azure / endpoint 的 data governance &amp;#43; information protection &amp;#43; DLP &amp;#43; insider risk 統合平台、label-driven">Microsoft Purview&lt;/a> / AWS Macie / &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/cloud-data-policy/" data-link-title="Cloud-native Data Policy (BigQuery &amp;#43; S3)" data-link-desc="BigQuery column / row-level security &amp;#43; S3 bucket policy &amp;#43; Access Points &amp;#43; Macie、雲端原生資料層 access control、跟 DLP / Purview 互補">Cloud-native data policy&lt;/a> 的差異不在「能不能發現 PII」、而在 &lt;em>發現之後能做多少事&lt;/em> — Google DLP 的核心優勢是 transformation 層（masking / Format-Preserving Encryption / tokenization / k-anonymity / differential privacy），不只是 detection。&lt;/p>
&lt;h2 id="服務定位">服務定位&lt;/h2>
&lt;p>Google DLP 的核心定位是 &lt;em>infrastructure-level 敏感資料治理&lt;/em>、跨 GCS / BigQuery / Cloud SQL / 任意 Inspect API input 的 PII 發現與去識別化。三層能力堆疊：&lt;em>Discovery&lt;/em>（背景 scan GCS bucket / BigQuery table / Cloud SQL instance 找 PII / payment / credential）、&lt;em>Classification&lt;/em>（150+ 預定義 infoType + custom infoType 組合）、&lt;em>Transformation&lt;/em>（redact / mask / replace / pseudonymize / Format-Preserving Encryption / k-anonymity / differential privacy）。&lt;/p>
&lt;p>跟 &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/microsoft-purview/" data-link-title="Microsoft Purview" data-link-desc="Microsoft 跨 M365 / Azure / endpoint 的 data governance &amp;#43; information protection &amp;#43; DLP &amp;#43; insider risk 統合平台、label-driven">Microsoft Purview&lt;/a> 比、Purview 走 &lt;em>information protection&lt;/em>（sensitivity label + Office docs + Microsoft 365）+ DLP、Google DLP 走 &lt;em>infrastructure-level data scan + transformation&lt;/em>；兩者解不同層、企業若 Office docs / SharePoint 為主走 Purview、cloud data warehouse / object storage 為主走 Google DLP。跟 AWS Macie 比、Macie 限 S3 + EBS / RDS snapshot、Google DLP 跨 GCS + BigQuery + Cloud SQL + 任意 Inspect API content（含 streaming / on-prem 透過 API call）。跟 &lt;a href="https://tarrragon.github.io/blog/backend/07-security-data-protection/vendors/cloud-data-policy/" data-link-title="Cloud-native Data Policy (BigQuery &amp;#43; S3)" data-link-desc="BigQuery column / row-level security &amp;#43; S3 bucket policy &amp;#43; Access Points &amp;#43; Macie、雲端原生資料層 access control、跟 DLP / Purview 互補">Cloud-native data policy&lt;/a> 比、Google DLP 是 &lt;em>detection + transformation&lt;/em>、Cloud-native policy 是 &lt;em>access control&lt;/em>；production 常組合使用 — DLP 發現敏感欄位 → policy 限制誰能 access → 必要時 DLP transformation 在 query time 自動 redact。&lt;/p></description><content:encoded><![CDATA[<p>Google DLP（Data Loss Prevention、2023 重新命名為 <em>Sensitive Data Protection / SDP</em>）是 GCP 原生的敏感資料 <em>discovery + classification + transformation</em> 服務。它跟 <a href="/blog/backend/07-security-data-protection/vendors/microsoft-purview/" data-link-title="Microsoft Purview" data-link-desc="Microsoft 跨 M365 / Azure / endpoint 的 data governance &#43; information protection &#43; DLP &#43; insider risk 統合平台、label-driven">Microsoft Purview</a> / AWS Macie / <a href="/blog/backend/07-security-data-protection/vendors/cloud-data-policy/" data-link-title="Cloud-native Data Policy (BigQuery &#43; S3)" data-link-desc="BigQuery column / row-level security &#43; S3 bucket policy &#43; Access Points &#43; Macie、雲端原生資料層 access control、跟 DLP / Purview 互補">Cloud-native data policy</a> 的差異不在「能不能發現 PII」、而在 <em>發現之後能做多少事</em> — Google DLP 的核心優勢是 transformation 層（masking / Format-Preserving Encryption / tokenization / k-anonymity / differential privacy），不只是 detection。</p>
<h2 id="服務定位">服務定位</h2>
<p>Google DLP 的核心定位是 <em>infrastructure-level 敏感資料治理</em>、跨 GCS / BigQuery / Cloud SQL / 任意 Inspect API input 的 PII 發現與去識別化。三層能力堆疊：<em>Discovery</em>（背景 scan GCS bucket / BigQuery table / Cloud SQL instance 找 PII / payment / credential）、<em>Classification</em>（150+ 預定義 infoType + custom infoType 組合）、<em>Transformation</em>（redact / mask / replace / pseudonymize / Format-Preserving Encryption / k-anonymity / differential privacy）。</p>
<p>跟 <a href="/blog/backend/07-security-data-protection/vendors/microsoft-purview/" data-link-title="Microsoft Purview" data-link-desc="Microsoft 跨 M365 / Azure / endpoint 的 data governance &#43; information protection &#43; DLP &#43; insider risk 統合平台、label-driven">Microsoft Purview</a> 比、Purview 走 <em>information protection</em>（sensitivity label + Office docs + Microsoft 365）+ DLP、Google DLP 走 <em>infrastructure-level data scan + transformation</em>；兩者解不同層、企業若 Office docs / SharePoint 為主走 Purview、cloud data warehouse / object storage 為主走 Google DLP。跟 AWS Macie 比、Macie 限 S3 + EBS / RDS snapshot、Google DLP 跨 GCS + BigQuery + Cloud SQL + 任意 Inspect API content（含 streaming / on-prem 透過 API call）。跟 <a href="/blog/backend/07-security-data-protection/vendors/cloud-data-policy/" data-link-title="Cloud-native Data Policy (BigQuery &#43; S3)" data-link-desc="BigQuery column / row-level security &#43; S3 bucket policy &#43; Access Points &#43; Macie、雲端原生資料層 access control、跟 DLP / Purview 互補">Cloud-native data policy</a> 比、Google DLP 是 <em>detection + transformation</em>、Cloud-native policy 是 <em>access control</em>；production 常組合使用 — DLP 發現敏感欄位 → policy 限制誰能 access → 必要時 DLP transformation 在 query time 自動 redact。</p>
<p>關鍵張力：<em>content scanned 計費</em> ↔ <em>偵測覆蓋率</em>。DLP API 按 scanned bytes 計費、整 BigQuery dataset full scan 在 PB-scale 跟 SIEM ingestion 同類痛點。實務應該分 <em>sample scan</em>（每 dataset 抽 1% 找 infoType 分布）+ <em>full scan</em>（高敏感 dataset 才完整 scan）+ <em>streaming scan</em>（write path 即時擋）三層。</p>
<h2 id="本章目標">本章目標</h2>
<p>讀完本頁、讀者能判斷：</p>
<ol>
<li>Google DLP 在 GCP 資料保護 stack 中承擔哪一段（discovery / classification / transformation）、哪些要外接（<a href="/blog/backend/07-security-data-protection/vendors/google-cloud-iam/" data-link-title="Google Cloud IAM" data-link-desc="GCP cloud resource permission engine、Role Binding / Service Account / Workload Identity Federation、resource hierarchy 為核心的權限治理">Google Cloud IAM</a> 管 DLP service account、BigQuery column-level security 補 access control）</li>
<li>infoType / Inspection Job / transformation 種類的選用判準（什麼場景 mask、什麼場景 FPE、什麼場景 k-anonymity）</li>
<li>計費 trap 的應對（sample scan + full scan 分層、Pub/Sub trigger 避免重複 scan）</li>
<li>何時用 Google DLP、何時走 Purview / Macie / Cloud-native policy 的取捨</li>
</ol>
<h2 id="最短判讀路徑">最短判讀路徑</h2>
<p>判斷 Google DLP deployment 是否健康、最少看四件事：</p>
<ul>
<li><strong>誰跑 Inspection Job</strong>：DLP service account 的 IAM role（<code>roles/dlp.user</code> / <code>roles/dlp.jobsEditor</code>）、能 scan 哪些 project / bucket / dataset、findings 寫進哪個 BigQuery table、誰能讀 findings</li>
<li><strong>infoType coverage</strong>：是否覆蓋 organization-specific PII（員工 ID / 客戶 ID 用 custom infoType + dictionary）、預定義 infoType 是否 enable 對應業務的（PCI 場景需 CREDIT_CARD_NUMBER + Luhn check、HIPAA 場景需 healthcare infoType）</li>
<li><strong>Transformation lifecycle</strong>：發現 PII 後做什麼（自動 quarantine bucket / 自動 redact view / Pub/Sub trigger Cloud Function）、transformation 是 <em>one-way</em>（mask / redact）還是 <em>reversible</em>（FPE / tokenization 需 key management 走 <a href="/blog/backend/07-security-data-protection/vendors/google-cloud-kms/" data-link-title="Google Cloud KMS" data-link-desc="GCP 原生 key management service、KeyRing / CryptoKey Version 設計、CMEK 整合 &#43; Cloud HSM &#43; External Key Manager">Cloud KMS</a>）</li>
<li><strong>Cost 治理</strong>：scan 頻率 vs scan scope 的策略、是否分 sample / full / streaming 三層、findings retention policy（findings table 本身也是敏感資料、不該無限保留）</li>
</ul>
<p>四件事任一缺失、就是 <a href="/blog/backend/07-security-data-protection/data-protection-and-masking-governance/" data-link-title="7.4 資料保護與遮罩治理" data-link-desc="以問題驅動方式整理資料分級、遮罩、匯出與備份治理">Data Protection and Masking Governance</a> 邊界的待補項目。</p>
<h2 id="日常操作與決策形狀">日常操作與決策形狀</h2>
<p><strong>使用模式：Inspect API vs Inspection Job</strong>：DLP 有兩種呼叫模式 — <em>Inspect API</em> 走同步單次 scan（小 payload、即時 mask、API 寫入前的 streaming gate）、<em>Inspection Job</em> 走非同步批次 scan（大 dataset、結果存 BigQuery findings table、Pub/Sub trigger 後續 workflow）。production 通常混用：write path（Cloud Function / API gateway）走 Inspect API 即時擋住敏感資料寫進儲存、背景 Inspection Job 對既有 dataset 跑覆盤。</p>
<p><strong>infoType 是 first-class concept</strong>：infoType 不是 regex、是 <em>PII 分類單位</em>。預定義 150+ 種（CREDIT_CARD_NUMBER / EMAIL_ADDRESS / US_SOCIAL_SECURITY_NUMBER / IP_ADDRESS / GENERIC_ID / PERSON_NAME 等）、各帶內建驗證邏輯（CREDIT_CARD_NUMBER 內建 Luhn check 比純 regex 精準、減少 FP）。Custom infoType 三種：<em>regex pattern</em>（自訂 regex）、<em>dictionary</em>（明確 token list、例員工 ID 全集）、<em>hotword rule</em>（context-aware、附近出現特定字才認、例「身分證」附近的數字才認 ID）。FP rate 直接由 infoType 精度決定、production rule 應該優先用預定義 infoType + hotword 限縮。</p>
<p><strong>Transformation 種類遠不只 mask</strong>：DLP 的 transformation 是它跟其他 discovery-only 工具的核心差異。<em>Redact</em> 完全刪除（query result 看不到欄位）；<em>Mask</em> 保留長度替換字元（<code>****1234</code>）；<em>Replace</em> 替換成固定字串（<code>[REDACTED]</code>）；<em>Pseudonymize / Tokenization</em> 一致性 token（同樣 input 給同樣 output、可做 join 但不可逆）；<em>Format-Preserving Encryption (FPE)</em> 保留長度 / format 的可逆加密（key 在 <a href="/blog/backend/07-security-data-protection/vendors/google-cloud-kms/" data-link-title="Google Cloud KMS" data-link-desc="GCP 原生 key management service、KeyRing / CryptoKey Version 設計、CMEK 整合 &#43; Cloud HSM &#43; External Key Manager">Cloud KMS</a>、analyst 查 anonymized data + 必要時授權 reverse）；<em>k-anonymity / l-diversity</em> aggregate 到至少 k 個 record 才公開（防止 quasi-identifier re-identification）；<em>Differential privacy</em> 加 noise 保證 statistical privacy（aggregated analytics 用）。後三項是 production analytics 場景的關鍵 — 不是「藏起來」而是「可用但保護」。</p>
<p><strong>跟 BigQuery 深度整合</strong>：DLP 可 inline scan BigQuery column、findings 自動寫回 metadata。配合 BigQuery <em>column-level security</em>（policy tag）+ <em>authorized view</em> 做「敏感 column 只給特定 role + 自動 redact 給其他 role」。Production 模式：DLP Inspection Job 跑完後、自動 apply policy tag 到含 PII 的 column、無 tag access 的 query 自動失敗或 mask。</p>
<p><strong>跟 Cloud Storage 整合</strong>：可 schedule 掃 bucket 整批檔案、發現後可自動 <em>quarantine</em>（移到隔離 bucket、不同 IAM、警告 owner）。對應 <a href="/blog/backend/07-security-data-protection/red-team/cases/data-exfiltration/lastpass-2022-backup-chain/" data-link-title="7.R7.4.1 LastPass 2022：備份路徑與鏈式入侵" data-link-desc="開發環境資訊外流如何沿著備份路徑擴大成資料風險">LastPass 2022 Backup Chain</a> 的對照：backup bucket 應該獨立 DLP scan、含 credential 的 backup 走獨立 quarantine bucket + 不同 IAM 邊界、不是放在跟 dev backup 同一個 bucket。</p>
<p><strong>Pub/Sub trigger workflow</strong>：Inspection Job 完成後可 publish 到 Pub/Sub topic、Cloud Function 訂閱後執行 — 自動 quarantine / 自動通知 owner / 自動寫進 <a href="/blog/backend/07-security-data-protection/vendors/splunk/" data-link-title="Splunk" data-link-desc="業界 SIEM 標準、forwarder &#43; indexer &#43; search head 架構、SPL 為核心查詢語言、ingestion-based 計費跟偵測覆蓋率的 trade-off">SIEM</a> findings index / 觸發 BigQuery policy tag update。這是 detection → response 自動化的 first-class pattern、不是後加的 webhook。</p>
<p><strong>IAM 邊界</strong>：DLP service account 需要讀 source data（<code>roles/storage.objectViewer</code> / <code>roles/bigquery.dataViewer</code>）+ 寫 findings（<code>roles/bigquery.dataEditor</code> to findings dataset）+ 呼叫 DLP API（<code>roles/dlp.user</code>）。service account 本身是高敏感 — 它能讀整個 organization 的 PII、應該走 short-lived credential（<a href="/blog/backend/07-security-data-protection/vendors/google-cloud-iam/" data-link-title="Google Cloud IAM" data-link-desc="GCP cloud resource permission engine、Role Binding / Service Account / Workload Identity Federation、resource hierarchy 為核心的權限治理">Workload Identity Federation</a>）+ 嚴格 audit。</p>
<h2 id="核心取捨表">核心取捨表</h2>
<table>
  <thead>
      <tr>
          <th>取捨維度</th>
          <th>Google DLP</th>
          <th>Microsoft Purview</th>
          <th>AWS Macie</th>
          <th>Cloud-native data policy</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>核心能力</td>
          <td>Discovery + classification + <strong>transformation</strong></td>
          <td>Sensitivity label + DLP + Office docs</td>
          <td>Discovery + classification（無 transform）</td>
          <td>Access control + column-level security</td>
      </tr>
      <tr>
          <td>Data source 範圍</td>
          <td>GCS + BigQuery + Cloud SQL + 任意 Inspect API</td>
          <td>Microsoft 365 + SharePoint + Azure data</td>
          <td>S3 + EBS / RDS snapshot 限定</td>
          <td>BigQuery / S3 / Snowflake 各自 native</td>
      </tr>
      <tr>
          <td>Transformation</td>
          <td>mask / FPE / tokenize / k-anonymity / DP（全套）</td>
          <td>redact + Office sensitivity label</td>
          <td>無 — 只 detection</td>
          <td>無 — 只 access control</td>
      </tr>
      <tr>
          <td>計費模型</td>
          <td>按 content scanned（GB）</td>
          <td>按 user / asset / 流量</td>
          <td>按 storage scanned（GB） + bucket count</td>
          <td>多半含在 cloud platform、policy 規模相關</td>
      </tr>
      <tr>
          <td>Custom 分類能力</td>
          <td>infoType (regex + dictionary + hotword)</td>
          <td>sensitive info type + classifier (ML)</td>
          <td>managed data identifier + custom</td>
          <td>tag-based / column-level、無 content scan</td>
      </tr>
      <tr>
          <td>Healthcare / PHI</td>
          <td>Cloud DLP for Healthcare（FHIR / DICOM）</td>
          <td>Purview Healthcare data + Microsoft 365 PHI</td>
          <td>有限</td>
          <td>無原生 PHI 認知</td>
      </tr>
      <tr>
          <td>適合場景</td>
          <td>GCP-first + BigQuery / GCS 為 PII 儲存層</td>
          <td>Microsoft 365 / Office docs / SharePoint 為主</td>
          <td>AWS-only + S3 為 PII 儲存層</td>
          <td>已知敏感 column、想做 access control 不做 mask</td>
      </tr>
      <tr>
          <td>退場成本</td>
          <td>中 — transformation 邏輯耦合 DLP API</td>
          <td>高 — sensitivity label 跟 Microsoft 365 深綁</td>
          <td>低 — 只是 finding 跟 alert</td>
          <td>低 — policy 是 metadata</td>
      </tr>
  </tbody>
</table>
<p>選 Google DLP 的核心訴求：<em>GCP 為主資料平台 + BigQuery / GCS 有大量 PII + 需要 transformation（不只 detection）+ 合規（GDPR / HIPAA / PCI）需要 column-level redaction / tokenization</em>。on-prem 為主或 Office docs 為主走 Purview、AWS-only 走 Macie + S3 policy。</p>
<h2 id="進階主題">進階主題</h2>
<p><strong>Custom infoType 三層組合</strong>：production 自家業務的 PII（員工 ID / 客戶 ID / 內部 case ID）需要 custom infoType。三種組合：<em>regex</em> 抓 pattern（員工 ID 格式 <code>EMP-\d{6}</code>）、<em>dictionary</em> 抓明確 token list（內部 case ID 全集、月更新）、<em>hotword</em> 限縮 context（附近出現「員工」「ID」才認、避免一般 6 位數字誤判）。三者組合的 FP rate 比單獨 regex 低一個量級。</p>
<p><strong>Format-Preserving Encryption (FPE) vs Tokenization</strong>：兩者都產生「外觀像原值但不是原值」的替換。<em>FPE</em> 是可逆加密、key 在 <a href="/blog/backend/07-security-data-protection/vendors/google-cloud-kms/" data-link-title="Google Cloud KMS" data-link-desc="GCP 原生 key management service、KeyRing / CryptoKey Version 設計、CMEK 整合 &#43; Cloud HSM &#43; External Key Manager">Cloud KMS</a>、analyst 在 anonymized data 工作 + 必要時走授權流程 reverse（例：客服需要看完整信用卡號處理退款）。<em>Tokenization</em> 是 deterministic mapping、同樣 input 給同樣 output、可做 join 分析但 token table 不存（理論上不可逆、實務上看 implementation）。選擇判準：<em>需要分析 join 同一 user 跨 dataset</em> 用 tokenization、<em>需要授權 reverse</em> 用 FPE、<em>只要遮蔽不需要還原</em> 用 mask / redact。</p>
<p><strong>k-anonymity / l-diversity / differential privacy</strong>：解決 <em>quasi-identifier re-identification</em> 問題 — 即使欄位不是直接 PII（如 ZIP + 性別 + 年齡）、組合起來能反推個人。<em>k-anonymity</em> 保證每個 record 在 quasi-identifier 上至少跟 k-1 個其他 record 一樣（典型 k=5）。<em>l-diversity</em> 進一步保證 sensitive attribute 在每組內至少 l 個不同值（防止 homogeneity attack）。<em>Differential privacy</em> 加 calibrated noise 到 aggregate query 結果、保證個別 record 加入或刪除對結果影響有 bound。Risk Analysis API 可估算 dataset 的 k-anonymity / l-diversity 風險、不需要先 transform 才知道風險。</p>
<p><strong>跟 Cloud DLP for Healthcare 整合</strong>：FHIR / DICOM 格式的 PHI 有專屬 transformation pipeline。FHIR resource 的特定欄位（patient name / MRN / birth date）按 HIPAA Safe Harbor 自動遮罩、DICOM image 的 metadata 跟 burned-in text 都可 redact。Healthcare 場景的 PHI 治理跟一般 PII 不同 — 不能直接 mask 全部、要保留 clinical utility（年齡轉年齡段、ZIP 保留前三碼）。</p>
<p><strong>跟 BigQuery column-level encryption</strong>：BigQuery 原生支援 AEAD encryption function、可用 KMS-managed key 對 column 做 cell-level encryption。DLP 可在 ingestion 階段先 tokenize、BigQuery query 階段配合 column-level security 做 access-time decryption。是「detection（DLP）+ classification（policy tag）+ encryption（AEAD）+ access control（column-level security）」的完整 stack。</p>
<h2 id="排錯與失敗快速判讀">排錯與失敗快速判讀</h2>
<ul>
<li><strong>DLP scan 找不到明顯 PII</strong>：infoType 沒 enable / 預定義 infoType 對 organization-specific 格式不認 — 加 custom infoType + hotword、跑 sample scan 驗證 coverage</li>
<li><strong>FP rate 太高 / findings 淹沒</strong>：infoType 太寬 / hotword 沒設 — 加 likelihood threshold（VERY_LIKELY / LIKELY）、custom infoType 加 hotword 限縮 context</li>
<li><strong>Scan cost 暴衝</strong>：每次都 full scan 整個 dataset / 沒分層 — 改 sample scan（每 dataset 1%）+ 高敏感 dataset 才 full scan + streaming scan 守 write path</li>
<li><strong>Inspection Job 跑超久 / timeout</strong>：dataset 過大 / 沒 partition — 切 partition by date、Job concurrency 提高、避免單 Job 跨整個 organization</li>
<li><strong>Transformation 後 analyst 無法工作</strong>：mask / redact 全部、保留不下 utility — 改 FPE / tokenization 保留 join 能力、k-anonymity 保留 statistical utility</li>
<li><strong>Findings table 自己變成 PII 洩漏面</strong>：findings 含 sample value（預設 quotable）、findings table 無獨立 IAM — 設定 <code>includeQuote: false</code>、findings table 走獨立 dataset + 嚴格 IAM</li>
<li><strong>DLP service account 權限太大 / 沒 audit</strong>：service account 能讀全 organization PII、用 long-lived key — 改 Workload Identity Federation + short-lived credential + Cloud Audit Log 監控 DLP API call</li>
</ul>
<h2 id="何時改走其他服務">何時改走其他服務</h2>
<table>
  <thead>
      <tr>
          <th>需求形狀</th>
          <th>改走</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Microsoft 365 / Office docs 為主</td>
          <td><a href="/blog/backend/07-security-data-protection/vendors/microsoft-purview/" data-link-title="Microsoft Purview" data-link-desc="Microsoft 跨 M365 / Azure / endpoint 的 data governance &#43; information protection &#43; DLP &#43; insider risk 統合平台、label-driven">Microsoft Purview</a></td>
      </tr>
      <tr>
          <td>AWS-only + S3 為 PII 儲存層</td>
          <td>AWS Macie</td>
      </tr>
      <tr>
          <td>只要 access control 不要 transformation</td>
          <td><a href="/blog/backend/07-security-data-protection/vendors/cloud-data-policy/" data-link-title="Cloud-native Data Policy (BigQuery &#43; S3)" data-link-desc="BigQuery column / row-level security &#43; S3 bucket policy &#43; Access Points &#43; Macie、雲端原生資料層 access control、跟 DLP / Purview 互補">Cloud-native data policy</a></td>
      </tr>
      <tr>
          <td>Secret / credential scanning（非 PII）</td>
          <td>GitGuardian / Gitleaks</td>
      </tr>
      <tr>
          <td>Data lineage / catalog</td>
          <td>Dataplex / Atlan / Collibra</td>
      </tr>
      <tr>
          <td>KMS / key management for FPE</td>
          <td><a href="/blog/backend/07-security-data-protection/vendors/google-cloud-kms/" data-link-title="Google Cloud KMS" data-link-desc="GCP 原生 key management service、KeyRing / CryptoKey Version 設計、CMEK 整合 &#43; Cloud HSM &#43; External Key Manager">Google Cloud KMS</a></td>
      </tr>
      <tr>
          <td>SIEM ingestion of DLP findings</td>
          <td><a href="/blog/backend/07-security-data-protection/vendors/splunk/" data-link-title="Splunk" data-link-desc="業界 SIEM 標準、forwarder &#43; indexer &#43; search head 架構、SPL 為核心查詢語言、ingestion-based 計費跟偵測覆蓋率的 trade-off">Splunk</a> / Chronicle</td>
      </tr>
  </tbody>
</table>
<h2 id="不在本頁內的主題">不在本頁內的主題</h2>
<ul>
<li>預定義 infoType 完整 list 跟各自 detection 邏輯（150+ 種、見官方 <a href="https://cloud.google.com/dlp/docs/infotypes-reference">InfoType reference</a>）</li>
<li>Cloud DLP for Healthcare 的 FHIR / DICOM 完整 pipeline 細節</li>
<li>BigQuery column-level security / policy tag 的 policy 設計（屬 Data Governance 章節）</li>
<li>GDPR / HIPAA / PCI 合規逐條對應（屬 <a href="/blog/backend/07-security-data-protection/data-residency-deletion-and-evidence-chain/" data-link-title="7.11 資料駐留、刪除與證據鏈" data-link-desc="定義跨區資料駐留、刪除請求與可驗證證據鏈問題">7.8 資料駐留與刪除證據鏈</a> 跟 <a href="/blog/backend/07-security-data-protection/data-protection-and-masking-governance/" data-link-title="7.4 資料保護與遮罩治理" data-link-desc="以問題驅動方式整理資料分級、遮罩、匯出與備份治理">7.4 資料保護與遮罩治理</a> 章節）</li>
<li>Differential privacy 的數學定義跟 epsilon budget 設計</li>
</ul>
<h2 id="案例回寫">案例回寫</h2>
<p>Google DLP 在 07 案例庫沒有直接 vendor-level 事件、但所有資料外洩 / 敏感資料治理 case 都是 DLP 控制覆蓋率的對照：</p>
<table>
  <thead>
      <tr>
          <th>案例</th>
          <th>跟 Google DLP 的關係（對照啟示）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><a href="/blog/backend/07-security-data-protection/red-team/cases/data-exfiltration/snowflake-2024-credential-abuse/" data-link-title="7.R7.4.2 Snowflake 2024：憑證濫用與資料竊取" data-link-desc="外洩憑證與 MFA 缺口如何在資料平台形成高風險外送事件">Snowflake 2024 Credential Abuse</a></td>
          <td>資料平台 export 流程應該有 DLP scan gate — query result 含批量 PII / 整 table dump 直接 alert 或自動 redact、不是事後審 audit log</td>
      </tr>
      <tr>
          <td><a href="/blog/backend/07-security-data-protection/red-team/cases/data-exfiltration/mailchimp-2023-support-tool-abuse/" data-link-title="7.R7.4.4 Mailchimp 2023：支援工具路徑與客戶資料風險" data-link-desc="社交工程進入客服工具後，如何形成特定客戶資料存取風險">Mailchimp 2023 Support Tool Abuse</a></td>
          <td>客服工具的客戶資料 export 應走 DLP Inspect API、單次 export 超過 N 筆 PII 或含 credential 直接擋住 + 觸發 alert、不靠 rate limit 一招</td>
      </tr>
      <tr>
          <td><a href="/blog/backend/07-security-data-protection/red-team/cases/data-exfiltration/lastpass-2022-backup-chain/" data-link-title="7.R7.4.1 LastPass 2022：備份路徑與鏈式入侵" data-link-desc="開發環境資訊外流如何沿著備份路徑擴大成資料風險">LastPass 2022 Backup Chain</a></td>
          <td>Backup bucket 應該獨立 DLP scan、含 credential / token 的 backup 自動 quarantine 到獨立 bucket + 不同 IAM、不是跟 dev backup 同 bucket 同 IAM</td>
      </tr>
      <tr>
          <td><a href="/blog/backend/07-security-data-protection/data-protection-and-masking-governance/" data-link-title="7.4 資料保護與遮罩治理" data-link-desc="以問題驅動方式整理資料分級、遮罩、匯出與備份治理">Data Protection and Masking Governance (section)</a></td>
          <td>Google DLP 是 transformation 工具的代表、章節原則對應 mask / FPE / tokenization / k-anonymity 的選用判讀</td>
      </tr>
      <tr>
          <td><a href="/blog/backend/07-security-data-protection/data-residency-deletion-and-evidence-chain/" data-link-title="7.11 資料駐留、刪除與證據鏈" data-link-desc="定義跨區資料駐留、刪除請求與可驗證證據鏈問題">Data Residency Deletion and Evidence Chain (section)</a></td>
          <td>DLP findings 是 deletion 證據鏈的一部分 — 哪些 PII 在哪些 dataset、deletion 後是否 re-scan verified、findings history 是 GDPR right-to-erasure 的稽核證據</td>
      </tr>
  </tbody>
</table>
<h2 id="下一步路由">下一步路由</h2>
<ul>
<li>上游：<a href="/blog/backend/07-security-data-protection/data-protection-and-masking-governance/" data-link-title="7.4 資料保護與遮罩治理" data-link-desc="以問題驅動方式整理資料分級、遮罩、匯出與備份治理">7.4 資料保護與遮罩治理</a>、<a href="/blog/backend/07-security-data-protection/data-residency-deletion-and-evidence-chain/" data-link-title="7.11 資料駐留、刪除與證據鏈" data-link-desc="定義跨區資料駐留、刪除請求與可驗證證據鏈問題">7.11 資料駐留、刪除與證據鏈</a></li>
<li>平行：<a href="/blog/backend/07-security-data-protection/vendors/microsoft-purview/" data-link-title="Microsoft Purview" data-link-desc="Microsoft 跨 M365 / Azure / endpoint 的 data governance &#43; information protection &#43; DLP &#43; insider risk 統合平台、label-driven">Microsoft Purview</a>、<a href="/blog/backend/07-security-data-protection/vendors/cloud-data-policy/" data-link-title="Cloud-native Data Policy (BigQuery &#43; S3)" data-link-desc="BigQuery column / row-level security &#43; S3 bucket policy &#43; Access Points &#43; Macie、雲端原生資料層 access control、跟 DLP / Purview 互補">Cloud-native data policy</a></li>
<li>上下游 IAM：<a href="/blog/backend/07-security-data-protection/vendors/google-cloud-iam/" data-link-title="Google Cloud IAM" data-link-desc="GCP cloud resource permission engine、Role Binding / Service Account / Workload Identity Federation、resource hierarchy 為核心的權限治理">Google Cloud IAM</a>（DLP service account 治理）、<a href="/blog/backend/07-security-data-protection/vendors/google-cloud-kms/" data-link-title="Google Cloud KMS" data-link-desc="GCP 原生 key management service、KeyRing / CryptoKey Version 設計、CMEK 整合 &#43; Cloud HSM &#43; External Key Manager">Google Cloud KMS</a>（FPE / tokenization key）</li>
<li>SIEM 路由：<a href="/blog/backend/07-security-data-protection/vendors/splunk/" data-link-title="Splunk" data-link-desc="業界 SIEM 標準、forwarder &#43; indexer &#43; search head 架構、SPL 為核心查詢語言、ingestion-based 計費跟偵測覆蓋率的 trade-off">Splunk</a>（DLP findings 進 SIEM correlation）</li>
<li>跨模組：<a href="/blog/backend/08-incident-response/vendors/" data-link-title="事故處理 Vendor 清單" data-link-desc="規劃 on-call、incident response、status page 與 postmortem 工具的服務頁撰寫順序與判準">8 事故處理 vendor 清單</a>（DLP alert → IR handoff）</li>
<li>官方：<a href="https://cloud.google.com/sensitive-data-protection/docs">Google Cloud Sensitive Data Protection Documentation</a></li>
</ul>
]]></content:encoded></item></channel></rss>