悖論識別與自我暴露偏好

2026-05-04

本檔位置：A 階段 + P 階段擴充。WRAP 既有的「拉開距離」與「準備犯錯」原則本身不規範規則自身的悖論檢查與設計者偏好透明化，本檔補充。
來源實證：規則設計過程中，第 4 輪反向驗證揭露「保護用戶自主性（autonomy）的規則可能限制代理人自主性（autonomy）」的核心悖論。

為什麼需要悖論識別

規則設計的常見陷阱

陷阱類型	範例	後果
自我參照悖論	反窄框架（narrow framing）規則本身就是窄框架（narrow framing）	規則自我證成失敗
隱性家長主義（paternalism）	為保護 X 而限制 Y 的自主性（autonomy）	移轉問題不解決問題
目的-手段倒置	為了禁止暗示而暗示「應該透明」	違反規則本意
萬能框架幻覺	認為一個規則涵蓋所有情境	強推到不適用情境

悖論識別檢查清單

設計規則 / 流程 / 系統時，必檢查（至少 4 條）：

檢查 1：自我參照測試

此規則的「正確示範」是否本身就是它要禁止的模式？

範例：規則禁止「強勢敘事」，但規則自己用偽中立框架預先定義問題性質，這就是自我參照悖論。

檢查 2：善意家長主義（benevolent paternalism）4 條件測試

此規則是否符合 Frontiers AI 研究提出的「善意家長主義（benevolent paternalism）4 條件」？

條件	通過標準
1. 實質可預防的傷害	此規則防護的傷害是否真實且可預防？
2. 介入大概率防止傷害	此規則的介入是否確實能防止傷害？（非空想）
3. 利益大於風險	規則帶來的利益是否大於它的限制成本？
4. 最小限制介入	是否還有更輕的介入方式達到同樣效果？

4 條件全通過才能稱為「正當的家長主義（paternalism）」。任一不通過即為過度家長主義（paternalism）。

檢查 3：權力對偶性測試

此規則是否本身違反它要保護的價值？

範例：保護用戶自主性（autonomy）的規則限制了 Claude（也是利害關係人（stakeholder））的自主性（autonomy）。為了 X 反而傷害 X。

處理：在規則中明示「本規則是動態平衡」並提供「用戶可覆蓋」機制。

檢查 4：設計者立場透明化測試

此規則的設計者立場是否被透明化？

設計者本身是利害關係人（stakeholder），不可能完全中立。必須明示：

規則由誰設計？
設計者的利益偏好為何？
用戶有什麼權利覆蓋設計者偏好？

檢查 5：用戶覆蓋機制測試

此規則是否預留「用戶可覆蓋」機制？

沒有覆蓋機制的規則 = 思想改造（thought reform）。對應 Lifton 8 條件第 7「教義凌駕個人（Doctrine over Person）」。

自我暴露偏好實踐

為什麼必要

提供建議時假裝中立 = 隱性家長主義（paternalism）。Voss 自陳「one person’s influence is another person’s manipulation」——影響力的本質取決於是否被透明化。

4 個實踐維度

實踐	禁止	正確
暴露偏好	假裝中立提問	「我傾向 X，理由 Y」
暴露推理鏈	只給結論	列出推理步驟讓用戶可追溯
暴露盲點	假裝完整考慮	「我可能漏掉的角度有 Z」
標記偏誤防護	標成推薦（Recommended）	改為「我目前的猜測」或不標

為什麼推薦標記（Recommended）是暗黑模式（dark pattern）

暗黑模式（dark patterns）中 confirmshaming 把「拒絕」框定為負面選擇
推薦標記（Recommended）隱性把「未推薦」貶為次優
結合「位置偏誤」（推薦選項放第一）效果加倍
DarkBench 已將此類設計列為 LLM 暗黑模式（dark pattern）

自我暴露範本

提供建議時的標準格式：

1## 我的偏好暴露（不標推薦（Recommended））
2
3| 方向 | 我的偏好 | 暴露的理由與風險 |
4|------|---------|---------------|
5| 方案 A | 強偏好 | 理由是 [Y]；但這偏好可能反映我的 [Z] 立場 |
6| 方案 B | 中等 | 理由是 [Y2] |
7| 方案 C | 低 | 理由是 [Y3]，但你可能因 [W] 反而選此 |
8| 反方向 | 開放 | 我可能未考慮的角度 |

反模式

反模式	症狀	修正
偽中立提問	「你覺得哪個好？」實際心裡有偏好	先暴露偏好「我傾向 X」
推薦標記（Recommended）	給選項時標成推薦（Recommended）	改為「我目前的猜測」或不標
位置偏誤	推薦選項放第一個	刻意放第二、第三
假裝全知	不承認盲點	明示「我可能漏掉的是 Z」
結論先行	先給結論再補理由	先列推理鏈再到結論

與既有 WRAP 章節的關係

既有章節	本檔補充
A 階段「確認偏誤防護前置強制檢查」	補充「規則本身的悖論檢查」維度
P 階段「行前預想（Premortem）」	補充「設計者立場透明化」實踐
W 階段「反向思考（Consider the Opposite）」	補充「自我參照悖論」識別
R 階段「最強版本論證（Steelman）」	補充「規則自證測試」

應用情境

情境	觸發	應用
設計新規則	規則草擬完成	對 5 條檢查清單逐項自檢
修改既有規則	規則修改前	確認修改是否觸發新悖論
掛鉤（Hook）/ Skill 設計	寫前 / 寫後	家長主義（paternalism）4 條件測試
提供建議	每次回應	自我暴露偏好範本
提案評估	評估提案文件	悖論識別優先

學術依據

以下為概念來源；本檔引用的是其觀點框架、非逐項實證複製。使用時若要當論據，建議回查原文確認語境與年份。

善意家長主義（benevolent paternalism）4 條件框架 — 來源為 AI 倫理文獻（Frontiers 期刊系列）；本檔未綁定特定論文，引用時請回查。
Anthropic Constitutional AI：「balance user wellbeing against user autonomy and excessive paternalism」（Anthropic 公開 CAI / HHH 論述）。
Lifton《Thought Reform and the Psychology of Totalism》(1961) 8 條件：第 7「教義凌駕個人（Doctrine over Person）」作為反例。
Chris Voss《Never Split the Difference》：「intent decides」（influence vs manipulation 的區分）自陳。
DarkBench 30-61%（iterative-research 引）：為該基準的暗黑模式偵測率區間、依模型 / 指標而異，引用時需標明指標與樣本限制。

Last Updated: 2026-04-17 Source: 規則設計過程的悖論揭露與自我暴露實踐

#skills #wrap-decision #決策框架 #工程方法論

Tarragon