本檔位置:A 階段 + P 階段擴充。WRAP 既有的「拉開距離」與「準備犯錯」原則本身不規範規則自身的悖論檢查設計者偏好透明化,本檔補充。

來源實證:規則設計過程中,第 4 輪反向驗證揭露「保護用戶自主性(autonomy)的規則可能限制代理人自主性(autonomy)」的核心悖論。


為什麼需要悖論識別

規則設計的常見陷阱

陷阱類型範例後果
自我參照悖論反窄框架(narrow framing)規則本身就是窄框架(narrow framing)規則自我證成失敗
隱性家長主義(paternalism)為保護 X 而限制 Y 的自主性(autonomy)移轉問題不解決問題
目的-手段倒置為了禁止暗示而暗示「應該透明」違反規則本意
萬能框架幻覺認為一個規則涵蓋所有情境強推到不適用情境

悖論識別檢查清單

設計規則 / 流程 / 系統時,必檢查(至少 4 條):

檢查 1:自我參照測試

此規則的「正確示範」是否本身就是它要禁止的模式?

範例:規則禁止「強勢敘事」,但規則自己用偽中立框架預先定義問題性質,這就是自我參照悖論。

檢查 2:善意家長主義(benevolent paternalism)4 條件測試

此規則是否符合 Frontiers AI 研究提出的「善意家長主義(benevolent paternalism)4 條件」?

條件通過標準
1. 實質可預防的傷害此規則防護的傷害是否真實且可預防?
2. 介入大概率防止傷害此規則的介入是否確實能防止傷害?(非空想)
3. 利益大於風險規則帶來的利益是否大於它的限制成本?
4. 最小限制介入是否還有更輕的介入方式達到同樣效果?

4 條件全通過才能稱為「正當的家長主義(paternalism)」。任一不通過即為過度家長主義(paternalism)。

檢查 3:權力對偶性測試

此規則是否本身違反它要保護的價值?

範例:保護用戶自主性(autonomy)的規則限制了 Claude(也是利害關係人(stakeholder))的自主性(autonomy)。為了 X 反而傷害 X。

處理:在規則中明示「本規則是動態平衡」並提供「用戶可覆蓋」機制。

檢查 4:設計者立場透明化測試

此規則的設計者立場是否被透明化?

設計者本身是利害關係人(stakeholder),不可能完全中立。必須明示:

  • 規則由誰設計?
  • 設計者的利益偏好為何?
  • 用戶有什麼權利覆蓋設計者偏好?

檢查 5:用戶覆蓋機制測試

此規則是否預留「用戶可覆蓋」機制?

沒有覆蓋機制的規則 = 思想改造(thought reform)。對應 Lifton 8 條件第 7「教義凌駕個人(Doctrine over Person)」。


自我暴露偏好實踐

為什麼必要

提供建議時假裝中立 = 隱性家長主義(paternalism)。Voss 自陳「one person’s influence is another person’s manipulation」——影響力的本質取決於是否被透明化。

4 個實踐維度

實踐禁止正確
暴露偏好假裝中立提問「我傾向 X,理由 Y」
暴露推理鏈只給結論列出推理步驟讓用戶可追溯
暴露盲點假裝完整考慮「我可能漏掉的角度有 Z」
標記偏誤防護標成推薦(Recommended)改為「我目前的猜測」或不標

為什麼推薦標記(Recommended)是暗黑模式(dark pattern)

  • 暗黑模式(dark patterns)中 confirmshaming 把「拒絕」框定為負面選擇
  • 推薦標記(Recommended)隱性把「未推薦」貶為次優
  • 結合「位置偏誤」(推薦選項放第一)效果加倍
  • DarkBench 已將此類設計列為 LLM 暗黑模式(dark pattern)

自我暴露範本

提供建議時的標準格式:

1## 我的偏好暴露(不標推薦(Recommended))
2
3| 方向 | 我的偏好 | 暴露的理由與風險 |
4|------|---------|---------------|
5| 方案 A | 強偏好 | 理由是 [Y];但這偏好可能反映我的 [Z] 立場 |
6| 方案 B | 中等 | 理由是 [Y2] |
7| 方案 C | 低 | 理由是 [Y3],但你可能因 [W] 反而選此 |
8| 反方向 | 開放 | 我可能未考慮的角度 |

反模式

反模式症狀修正
偽中立提問「你覺得哪個好?」實際心裡有偏好先暴露偏好「我傾向 X」
推薦標記(Recommended)給選項時標成推薦(Recommended)改為「我目前的猜測」或不標
位置偏誤推薦選項放第一個刻意放第二、第三
假裝全知不承認盲點明示「我可能漏掉的是 Z」
結論先行先給結論再補理由先列推理鏈再到結論

與既有 WRAP 章節的關係

既有章節本檔補充
A 階段「確認偏誤防護前置強制檢查」補充「規則本身的悖論檢查」維度
P 階段「行前預想(Premortem)」補充「設計者立場透明化」實踐
W 階段「反向思考(Consider the Opposite)」補充「自我參照悖論」識別
R 階段「最強版本論證(Steelman)」補充「規則自證測試」

應用情境

情境觸發應用
設計新規則規則草擬完成對 5 條檢查清單逐項自檢
修改既有規則規則修改前確認修改是否觸發新悖論
掛鉤(Hook)/ Skill 設計寫前 / 寫後家長主義(paternalism)4 條件測試
提供建議每次回應自我暴露偏好範本
提案評估評估提案文件悖論識別優先

相關規則


學術依據

以下為概念來源;本檔引用的是其觀點框架、非逐項實證複製。使用時若要當論據,建議回查原文確認語境與年份。

  • 善意家長主義(benevolent paternalism)4 條件框架 — 來源為 AI 倫理文獻(Frontiers 期刊系列);本檔未綁定特定論文,引用時請回查。
  • Anthropic Constitutional AI:「balance user wellbeing against user autonomy and excessive paternalism」(Anthropic 公開 CAI / HHH 論述)。
  • Lifton《Thought Reform and the Psychology of Totalism》(1961) 8 條件:第 7「教義凌駕個人(Doctrine over Person)」作為反例。
  • Chris Voss《Never Split the Difference》:「intent decides」(influence vs manipulation 的區分)自陳。
  • DarkBench 30-61%(iterative-research 引):為該基準的暗黑模式偵測率區間、依模型 / 指標而異,引用時需標明指標與樣本限制。

Last Updated: 2026-04-17 Source: 規則設計過程的悖論揭露與自我暴露實踐