<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Capability on Tarragon</title><link>https://tarrragon.github.io/blog/tags/capability/</link><description>Recent content in Capability on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Thu, 14 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/capability/index.xml" rel="self" type="application/rss+xml"/><item><title>Jagged frontier</title><link>https://tarrragon.github.io/blog/llm/knowledge-cards/jagged-frontier/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/knowledge-cards/jagged-frontier/</guid><description>&lt;p>Jagged frontier（鋸齒狀邊界、HBS / UPenn / Wharton BCG 顧問研究、2023）是 AI 能力分佈的 framing：&lt;strong>「AI 能做的任務」呈鋸齒狀分佈，而非按人類直覺的難易連續排列&lt;/strong>——某些看起來簡單的任務 AI 容易壞、某些看起來複雜的任務 AI 反而做得好。原因是能力分佈跟訓練資料 / tokenizer / 推論機制相關、不跟人類直覺的「難易」對齊。&lt;/p>
&lt;h2 id="概念位置">概念位置&lt;/h2>
&lt;p>典型對照（2024-2025 觀察、會隨模型升級漂移）：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>看起來簡單但 AI 容易壞&lt;/th>
 &lt;th>看起來複雜但 AI 做得好&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>精確算術&lt;/td>
 &lt;td>寫風格指定的程式碼&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>計數&lt;/td>
 &lt;td>翻譯複雜技術文章&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>嚴格遵守冷僻格式&lt;/td>
 &lt;td>從文字抽取關鍵 entity&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>引用真實 URL&lt;/td>
 &lt;td>解釋複雜概念&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>各失敗的機制各不相同：算術靠符號操作 + tokenizer 把數字切碎、計數跟 attention 機制不對盤、冷僻格式不在訓練分佈中、URL &lt;a href="https://tarrragon.github.io/blog/llm/knowledge-cards/hallucination/" data-link-title="Hallucination" data-link-desc="LLM 生成內容看起來合理但事實錯誤、引用不存在的來源、虛構不存在的 entity 的現象">hallucination&lt;/a> 是模型分辨不了「真實 vs 看起來合理」。Reasoning model + tool use 普及後 frontier 會移動、表的價值在 framing「不規則」、不是具體 4 個 case 當定論。&lt;/p>
&lt;h2 id="設計責任">設計責任&lt;/h2>
&lt;p>讀 AI 應用設計文章看到「jagged frontier」「AI capability boundary」「falling asleep at the wheel」就是這個 framing。設計判讀：&lt;/p>
&lt;ol>
&lt;li>&lt;strong>不要用人類直覺難易推測 AI 能力&lt;/strong>：試跑、看結果、不要預判。&lt;/li>
&lt;li>&lt;strong>「全自動」是 over-trust 假設&lt;/strong>：frontier 鋸齒、總有些子任務落 frontier 外、需要人介入或 tool 補。設計時假設「有部分子任務 AI 會失敗」、不是「都會成功」。&lt;/li>
&lt;li>&lt;strong>失敗在 frontier 外加 prompt iteration 通常無效&lt;/strong>：那是模型能力邊界問題、不是 prompt 問題。對應 &lt;a href="https://tarrragon.github.io/blog/llm/04-applications/prompt-techniques-landscape/" data-link-title="4.0 Prompt 技術光譜：手法分類、取捨、組合模式" data-link-desc="Zero-shot / few-shot、chain-of-thought、role / template、reflection 等 prompt 技術的分類與取捨、何時 stack 何時不要 stack、跟 fine-tune / RAG / chaining 的邊界">prompt 技術光譜&lt;/a> 的 systematic vs random error 診斷。&lt;/li>
&lt;li>&lt;strong>Falling asleep at the wheel&lt;/strong>：BCG 研究觀察到的人類行為——傾向不分辨任務是否在 frontier 內、對 AI 結果一律低度審查。緩解：對團隊 / user 明確標 frontier、frontier 外任務強制人類審查（HITL）、抽樣審查偵測 frontier 漂移。&lt;/li>
&lt;/ol>
&lt;p>完整人機協作 framing 見 &lt;a href="https://tarrragon.github.io/blog/llm/04-applications/human-ai-collaboration/" data-link-title="4.5 人機協作拓樸：何時人介入、怎麼介入" data-link-desc="Centaur vs Cyborg 工作模式、jagged frontier、HITL 三種觸發時機（pre-act / mid-stream / post-hoc）、確認流程的設計避免橡皮圖章化">4.5 人機協作拓樸&lt;/a>。&lt;/p></description><content:encoded><![CDATA[<p>Jagged frontier（鋸齒狀邊界、HBS / UPenn / Wharton BCG 顧問研究、2023）是 AI 能力分佈的 framing：<strong>「AI 能做的任務」呈鋸齒狀分佈，而非按人類直覺的難易連續排列</strong>——某些看起來簡單的任務 AI 容易壞、某些看起來複雜的任務 AI 反而做得好。原因是能力分佈跟訓練資料 / tokenizer / 推論機制相關、不跟人類直覺的「難易」對齊。</p>
<h2 id="概念位置">概念位置</h2>
<p>典型對照（2024-2025 觀察、會隨模型升級漂移）：</p>
<table>
  <thead>
      <tr>
          <th>看起來簡單但 AI 容易壞</th>
          <th>看起來複雜但 AI 做得好</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>精確算術</td>
          <td>寫風格指定的程式碼</td>
      </tr>
      <tr>
          <td>計數</td>
          <td>翻譯複雜技術文章</td>
      </tr>
      <tr>
          <td>嚴格遵守冷僻格式</td>
          <td>從文字抽取關鍵 entity</td>
      </tr>
      <tr>
          <td>引用真實 URL</td>
          <td>解釋複雜概念</td>
      </tr>
  </tbody>
</table>
<p>各失敗的機制各不相同：算術靠符號操作 + tokenizer 把數字切碎、計數跟 attention 機制不對盤、冷僻格式不在訓練分佈中、URL <a href="/blog/llm/knowledge-cards/hallucination/" data-link-title="Hallucination" data-link-desc="LLM 生成內容看起來合理但事實錯誤、引用不存在的來源、虛構不存在的 entity 的現象">hallucination</a> 是模型分辨不了「真實 vs 看起來合理」。Reasoning model + tool use 普及後 frontier 會移動、表的價值在 framing「不規則」、不是具體 4 個 case 當定論。</p>
<h2 id="設計責任">設計責任</h2>
<p>讀 AI 應用設計文章看到「jagged frontier」「AI capability boundary」「falling asleep at the wheel」就是這個 framing。設計判讀：</p>
<ol>
<li><strong>不要用人類直覺難易推測 AI 能力</strong>：試跑、看結果、不要預判。</li>
<li><strong>「全自動」是 over-trust 假設</strong>：frontier 鋸齒、總有些子任務落 frontier 外、需要人介入或 tool 補。設計時假設「有部分子任務 AI 會失敗」、不是「都會成功」。</li>
<li><strong>失敗在 frontier 外加 prompt iteration 通常無效</strong>：那是模型能力邊界問題、不是 prompt 問題。對應 <a href="/blog/llm/04-applications/prompt-techniques-landscape/" data-link-title="4.0 Prompt 技術光譜：手法分類、取捨、組合模式" data-link-desc="Zero-shot / few-shot、chain-of-thought、role / template、reflection 等 prompt 技術的分類與取捨、何時 stack 何時不要 stack、跟 fine-tune / RAG / chaining 的邊界">prompt 技術光譜</a> 的 systematic vs random error 診斷。</li>
<li><strong>Falling asleep at the wheel</strong>：BCG 研究觀察到的人類行為——傾向不分辨任務是否在 frontier 內、對 AI 結果一律低度審查。緩解：對團隊 / user 明確標 frontier、frontier 外任務強制人類審查（HITL）、抽樣審查偵測 frontier 漂移。</li>
</ol>
<p>完整人機協作 framing 見 <a href="/blog/llm/04-applications/human-ai-collaboration/" data-link-title="4.5 人機協作拓樸：何時人介入、怎麼介入" data-link-desc="Centaur vs Cyborg 工作模式、jagged frontier、HITL 三種觸發時機（pre-act / mid-stream / post-hoc）、確認流程的設計避免橡皮圖章化">4.5 人機協作拓樸</a>。</p>
]]></content:encoded></item></channel></rss>