地區慣用語直譯:keyword grep 抓不到、同源讀得懂會放行
結論
地區用語的偵測分兩層,難度不同。單詞漂移(屏 / 螢幕、默認 / 預設、質量 / 品質)是封閉、可列舉的集合,用 keyword grep 掃得到(見 #112 地區用語對齊)。慣用語直譯(拍腦袋、靠譜、接地氣、給力、一波、死磕)是開放集合、無法用一份短清單列舉,且每一句「語意讀得懂」,所以列舉式 grep 結構性抓不到、同源審查者也會合理化放行。慣用語直譯的真防線是在地讀者的冷讀,不是把 grep 的 keyword 清單加長。
為什麼慣用語比單詞難抓
開放集合 vs 封閉集合
單詞漂移是封閉集合:一個概念在繁中 / 簡中各有一個常用詞,兩兩對應,能列成一張對照表(螢幕 ↔ 屏、預設 ↔ 默認)。keyword bank 把這張表的簡中欄做成 grep pattern,掃到就是候選。清單有限、可維護。
慣用語是開放集合:「憑感覺做決定」可以直譯成拍腦袋、拍板、一拍腦門,「可靠」可以是靠譜、給力,「務實」可以是接地氣。慣用語的產生是組合性的(動詞 + 比喻 + 語氣),列舉不完。把 grep 清單加長只會追著個案跑,永遠漏掉下一個沒列到的片語——這是 design 上的偵測缺口,不是清單不夠長的 execution 缺口。
同源盲區:讀得懂就放行
慣用語直譯的第二層難處是它「可讀」。跨地區訓練語料下,作者跟 LLM 審查者都對拍腦袋這類詞有語感、一讀就懂意思,於是同源審查者把它合理化成「雖然是那邊的說法、但讀者看得懂、可接受」——偵測即使命中(如果剛好在清單裡),判定也會放水。這跟 register 違規(否定起手、喊話、誇飾)的同源自審上限同構(見 #165 register 違規需要跨文體的眼睛):同源審查者跟作者共享文體 / 語料直覺,對這層有結構上限,加再多輪同源 review 都跨不過。
識別訊號
訊號 1:成語式 / 比喻式的決策與評價詞
拍腦袋(憑感覺決定)、拍板(定案)、一波(一輪 / 一次)、死磕(硬拚)、躺平、內卷——這類詞是把一個抽象動作用生動比喻包裝,繁中技術寫作少用、簡中高頻。命中訊號是「這句在描述決策 / 評價 / 程度,用了一個畫面感很強的口語片語」。
訊號 2:表面讀得懂、但在地不這樣說
判準不是「看不看得懂」(都看得懂),是「這個地區的人會不會這樣說」。靠譜、給力、接地氣在台灣讀得懂但不會用來寫技術文章——台灣會說可靠、有力、務實。要判定得問在地語感、不是問語意。
訊號 3:review 回報字句層 clean,卻被在地讀者一眼抓到
同源 reviewer 掃完 keyword bank 回報「地區用語 clean」,但在地讀者冷讀立刻指出某個慣用語——這個落差本身就是訊號:clean 是「grep 清單沒中」,不是「在地讀者讀起來對」。同源 reviewer 的 clean 對慣用語層不可當真、要標「未經在地抽查」。
修法:偵測靠在地冷讀,不是加長清單
慣用語直譯的偵測面無法靠 grep 窮盡,修法分兩段對應兩層難處:
- 機械層只做已知個案:把已踩過的慣用語(拍腦袋 → 憑感覺估、靠譜 → 可靠、給力 → 有力)加進 keyword bank,讓存量 debt 持續可見、不再依賴記憶。但明確標「本清單是已知個案、不是窮舉」——它抓存量、不保證抓新個案。
- 判定層交在地讀者冷讀:新個案的真防線是作者以外、且是目標地區的眼睛。這跟 register 違規的異源複核是同一套操作——同源負責曝光候選、在地異源負責定奪。同源 review 對慣用語層的產出是「給在地人複核的清單」、不是「已複核乾淨」。
何時不算違規
| 情境 | 為什麼可接受 |
|---|---|
| 引用第三方資料 / quote | 引用對方地區的原文、保留準確性比對齊重要 |
| 描述對方地區的具體現象 | 講「內卷」這個社會現象本身、不是拿它當一般形容詞 |
| 已滲透到在地主流語料的詞 | 部分詞(如「視頻」)近年滲透台灣年輕語料、判定要跟著讀者群更新 |
| 個人風格 / 訪談保留 | narrative 選擇、保留作者語感 |
判準跟 #112 一致:問「讀者地區是否單一、這個片語是不是讓在地讀者覺得出戲」,而不是「看不看得懂」。
跟其他抽象層原則的關係
| 原則 | 跟本卡的關係 |
|---|---|
| #112 地區用語對齊 | 本卡是它的偵測維度延伸——#112 講單詞漂移(封閉集合、grep 抓得到)、本卡講慣用語(開放集合、grep 抓不到) |
| #165 register 違規需要跨文體的眼睛 | 同構:兩者都是同源自審有結構上限、需異源複核;本卡是地區語感層、#165 是文體 register 層 |
| #111 口語化修辭會稀釋技術精度 | 慣用語直譯常同時是口語修辭;本卡從地區維度切、#111 從精度維度切、常同一句命中 |
| #203 避免泛用詞濫用 | 兩卡都是字句層偵測、且都「命中是候選不是判決」;泛用詞是精度問題、慣用語是地區問題 |
判讀徵兆
| 訊號 | 該做的行動 |
|---|---|
| 出現拍腦袋 / 靠譜 / 給力 / 接地氣 / 一波 / 死磕 | 換在地說法(憑感覺估 / 可靠 / 有力 / 務實 / 一輪 / 硬拚) |
| 想靠「加長 grep 清單」把慣用語掃乾淨 | 停——這是開放集合、清單追不完;已知個案入清單、新個案交在地冷讀 |
| 同源 reviewer 回報「地區用語 clean」 | 標「未經在地抽查」、慣用語層不當真 |
| 分不清偵測缺口是 design 還是 execution | 單詞漏抓 = execution(補清單);慣用語漏抓 = design(要異源) |
核心原則:地區用語的偵測,單詞層可機械化、慣用語層不可。把慣用語當成「加長清單就能解」是把 design 缺口誤當 execution 缺口——它的真防線是在地讀者的異源冷讀。
Self-case:本卡的觸發來源
本卡的觸發是 devops 容量規劃模組寫作後的多輪審查。Round 1-A 的地區用語 keyword grep(集群 / 默認 / 質量 / 視頻 / 函數 / 文件夾 / 接口)掃過、回報字句層近 clean;三輪 agent reviewer 都沒抓到「流量模型的來源是真實流量、不是拍腦袋」這句。是使用者(在地讀者)冷讀時一眼指出「台灣不說拍腦袋、這是其他地區用法的直譯」。
對應本卡:單詞漂移 keyword bank 掃得到、慣用語直譯掃不到;同源 agent reviewer 對慣用語層有結構盲區、要在地讀者冷讀才抓得到。修法是把「拍腦袋」換成「憑感覺估」,並把這個個案入 keyword bank(抓存量)、同時認清新個案要靠異源(不追清單)。