結論

地區用語的偵測分兩層,難度不同。單詞漂移(屏 / 螢幕、默認 / 預設、質量 / 品質)是封閉、可列舉的集合,用 keyword grep 掃得到(見 #112 地區用語對齊)。慣用語直譯(拍腦袋、靠譜、接地氣、給力、一波、死磕)是開放集合、無法用一份短清單列舉,且每一句「語意讀得懂」,所以列舉式 grep 結構性抓不到、同源審查者也會合理化放行。慣用語直譯的真防線是在地讀者的冷讀,不是把 grep 的 keyword 清單加長。


為什麼慣用語比單詞難抓

開放集合 vs 封閉集合

單詞漂移是封閉集合:一個概念在繁中 / 簡中各有一個常用詞,兩兩對應,能列成一張對照表(螢幕 ↔ 屏、預設 ↔ 默認)。keyword bank 把這張表的簡中欄做成 grep pattern,掃到就是候選。清單有限、可維護。

慣用語是開放集合:「憑感覺做決定」可以直譯成拍腦袋、拍板、一拍腦門,「可靠」可以是靠譜、給力,「務實」可以是接地氣。慣用語的產生是組合性的(動詞 + 比喻 + 語氣),列舉不完。把 grep 清單加長只會追著個案跑,永遠漏掉下一個沒列到的片語——這是 design 上的偵測缺口,不是清單不夠長的 execution 缺口。

同源盲區:讀得懂就放行

慣用語直譯的第二層難處是它「可讀」。跨地區訓練語料下,作者跟 LLM 審查者都對拍腦袋這類詞有語感、一讀就懂意思,於是同源審查者把它合理化成「雖然是那邊的說法、但讀者看得懂、可接受」——偵測即使命中(如果剛好在清單裡),判定也會放水。這跟 register 違規(否定起手、喊話、誇飾)的同源自審上限同構(見 #165 register 違規需要跨文體的眼睛):同源審查者跟作者共享文體 / 語料直覺,對這層有結構上限,加再多輪同源 review 都跨不過。


識別訊號

訊號 1:成語式 / 比喻式的決策與評價詞

拍腦袋(憑感覺決定)、拍板(定案)、一波(一輪 / 一次)、死磕(硬拚)、躺平、內卷——這類詞是把一個抽象動作用生動比喻包裝,繁中技術寫作少用、簡中高頻。命中訊號是「這句在描述決策 / 評價 / 程度,用了一個畫面感很強的口語片語」。

訊號 2:表面讀得懂、但在地不這樣說

判準不是「看不看得懂」(都看得懂),是「這個地區的人會不會這樣說」。靠譜、給力、接地氣在台灣讀得懂但不會用來寫技術文章——台灣會說可靠、有力、務實。要判定得問在地語感、不是問語意。

訊號 3:review 回報字句層 clean,卻被在地讀者一眼抓到

同源 reviewer 掃完 keyword bank 回報「地區用語 clean」,但在地讀者冷讀立刻指出某個慣用語——這個落差本身就是訊號:clean 是「grep 清單沒中」,不是「在地讀者讀起來對」。同源 reviewer 的 clean 對慣用語層不可當真、要標「未經在地抽查」。


修法:偵測靠在地冷讀,不是加長清單

慣用語直譯的偵測面無法靠 grep 窮盡,修法分兩段對應兩層難處:

  1. 機械層只做已知個案:把已踩過的慣用語(拍腦袋 → 憑感覺估、靠譜 → 可靠、給力 → 有力)加進 keyword bank,讓存量 debt 持續可見、不再依賴記憶。但明確標「本清單是已知個案、不是窮舉」——它抓存量、不保證抓新個案。
  2. 判定層交在地讀者冷讀:新個案的真防線是作者以外、且是目標地區的眼睛。這跟 register 違規的異源複核是同一套操作——同源負責曝光候選、在地異源負責定奪。同源 review 對慣用語層的產出是「給在地人複核的清單」、不是「已複核乾淨」。

何時不算違規

情境為什麼可接受
引用第三方資料 / quote引用對方地區的原文、保留準確性比對齊重要
描述對方地區的具體現象講「內卷」這個社會現象本身、不是拿它當一般形容詞
已滲透到在地主流語料的詞部分詞(如「視頻」)近年滲透台灣年輕語料、判定要跟著讀者群更新
個人風格 / 訪談保留narrative 選擇、保留作者語感

判準跟 #112 一致:問「讀者地區是否單一、這個片語是不是讓在地讀者覺得出戲」,而不是「看不看得懂」。


跟其他抽象層原則的關係

原則跟本卡的關係
#112 地區用語對齊本卡是它的偵測維度延伸——#112 講單詞漂移(封閉集合、grep 抓得到)、本卡講慣用語(開放集合、grep 抓不到)
#165 register 違規需要跨文體的眼睛同構:兩者都是同源自審有結構上限、需異源複核;本卡是地區語感層、#165 是文體 register 層
#111 口語化修辭會稀釋技術精度慣用語直譯常同時是口語修辭;本卡從地區維度切、#111 從精度維度切、常同一句命中
#203 避免泛用詞濫用兩卡都是字句層偵測、且都「命中是候選不是判決」;泛用詞是精度問題、慣用語是地區問題

判讀徵兆

訊號該做的行動
出現拍腦袋 / 靠譜 / 給力 / 接地氣 / 一波 / 死磕換在地說法(憑感覺估 / 可靠 / 有力 / 務實 / 一輪 / 硬拚)
想靠「加長 grep 清單」把慣用語掃乾淨停——這是開放集合、清單追不完;已知個案入清單、新個案交在地冷讀
同源 reviewer 回報「地區用語 clean」標「未經在地抽查」、慣用語層不當真
分不清偵測缺口是 design 還是 execution單詞漏抓 = execution(補清單);慣用語漏抓 = design(要異源)

核心原則:地區用語的偵測,單詞層可機械化、慣用語層不可。把慣用語當成「加長清單就能解」是把 design 缺口誤當 execution 缺口——它的真防線是在地讀者的異源冷讀。


Self-case:本卡的觸發來源

本卡的觸發是 devops 容量規劃模組寫作後的多輪審查。Round 1-A 的地區用語 keyword grep(集群 / 默認 / 質量 / 視頻 / 函數 / 文件夾 / 接口)掃過、回報字句層近 clean;三輪 agent reviewer 都沒抓到「流量模型的來源是真實流量、不是拍腦袋」這句。是使用者(在地讀者)冷讀時一眼指出「台灣不說拍腦袋、這是其他地區用法的直譯」。

對應本卡:單詞漂移 keyword bank 掃得到、慣用語直譯掃不到;同源 agent reviewer 對慣用語層有結構盲區、要在地讀者冷讀才抓得到。修法是把「拍腦袋」換成「憑感覺估」,並把這個個案入 keyword bank(抓存量)、同時認清新個案要靠異源(不追清單)。