"Llm"
- Adaptive Retrieval
RAG 控制流中先判斷是否需要檢索,只在外部知識有價值時才 retrieve
- Agent-as-Tool
把一個專責 agent 包成可被另一個 agent 呼叫的 tool,形成跨 agent 的責任邊界
- Beyond LLM: Enhancing LLM Applications (Stanford CS230)
Stanford CS230 Deep Learning 講座整理:從 prompt engineering、fine-tuning、RAG 到 agentic workflow、evals、multi-agent system 的全景 survey。保留英文原文。
- BNF(Backus-Naur Form)
用遞迴產生式描述語法的經典記法,是 CFG、parser 與 grammar-constrained sampling 常見的基礎表示
- Capability Spectrum
把模型能力視為連續光譜而非支援 / 不支援二分,用覆蓋度、穩定性與失敗模式判讀真實可用性
- Case Study:customer support agent 從 task decomposition 到 eval
把模組四原理串成端到端案例:observe → decompose → design workflow → instrument trace → design eval → iterate。每段標出引用哪章。
- Context Drift
Agent 長任務中累積上下文逐步偏離原始目標,導致後續行動看似合理但整體跑偏
- Context Packing
RAG retrieve 後把 chunks 去重、排序、壓縮、標來源,再塞進 prompt 的組裝決策
- Deterministic vs Fuzzy engineering
LLM 軟體 vs 傳統軟體在資料 / 邏輯 / 行為一致性 / 實驗成本四維度的典範差異、決定哪段該包 guardrail
- DSL(Domain-Specific Language)
為特定業務或技術領域設計的小語言,在 LLM 應用中常作為可解析、可驗證、可執行的中介輸出
- Few-shot prompting
在 prompt 內塞 input-output 範例對齊任務、不動模型權重的 in-context learning 技術
- Frozen baseline
Eval 系統中固定特定 prompt + model 當長期對照、讓行為漂移可見的標準作法
- Goal Drift
Agent 把子目標誤當成整體目標,提早停止或朝錯誤完成條件前進的失敗模式
- Grammar
描述合法字串形狀的形式規則,在 structured output 中用來限制 LLM 每一步可輸出的 token
- Grouped-Query Attention
讓多個 query head 共用較少的 key/value head,以降低 KV cache 體積與推論記憶體壓力
- Guardrail
在 LLM fuzzy 行為外層加上 schema、validator、policy、human review 與 monitoring 的控制設計
- Human-in-the-loop(HITL)
人類介入 LLM 工作流的設計:三種觸發時機(pre-act / mid-stream / post-hoc)、避免橡皮圖章化的四條件
- HyDE(Hypothetical Document Embeddings)
用 LLM 生成假設文件、對假文件做 embedding 去 retrieve、繞過 query-document gap 的 RAG 增強技術
- In-Context Learning
模型在不更新權重的情況下,從 prompt 內範例、規則與上下文臨時對齊任務的能力
- Instruction Following
模型遵守任務範圍、格式、限制與停止條件的能力,是評估 instruction-tuned 模型能否落地的核心訊號
- Jagged frontier
AI 能力分佈不規則的 framing:某些看似簡單的任務 AI 容易壞、某些看似複雜的任務 AI 反而做得好
- Lark Grammar
Lark parser 使用的 EBNF-like grammar 格式,常被 structured output 工具拿來描述自訂輸出語法
- llama.cpp Tensor Split
llama.cpp 多 GPU 場景中把模型張量按比例切到多張卡上的權重分配機制
- Local vs Cloud LLM
用隱私、成本、延遲、能力與維運責任判斷任務該跑本地模型還是雲端模型
- Model Supply-Chain Trust
判斷模型權重、量化版本、registry 與本機檔案是否可信的供應鏈信任框架
- Multi-agent system
多個 LLM agent 協作的系統、跟 multi-call workflow 的差異在控制流跟責任邊界、三種拓樸 flat / hierarchical / agent-as-tool
- Multi-Step Retrieval
RAG 中多輪 retrieve → 判斷 → 再 retrieve 的控制流,用來處理 multi-hop 問題
- oMLX
以 MLX 為基礎、針對 Apple Silicon 長 context 與 SSD KV cache 優化的本地推論伺服器路線
- Positional Encoding
把 token 位置資訊注入 Transformer 的機制,讓 attention 能分辨順序與距離
- Query Decomposition
把複合 query 拆成可獨立檢索的子 query,平行取得證據後再合成答案
- Query Expansion
RAG 檢索前把一個 query 擴成多個語意變體,增加 coverage,再合併 retrieval 結果
- Query Rewriting
在 RAG 檢索前改寫使用者查詢,讓 query 更接近文件語言與索引分佈
- Query-Document Gap
使用者 query 與文件語言在詞彙、形態、抽象層級或領域分佈上的落差,是 RAG retrieval miss 的常見原因
- Reflection / Self-critique
要求模型先輸出一版、再 critique 自己、再修改的 prompting / workflow 模式、有自身失敗模式
- Residual Stream
Transformer block 之間持續傳遞與累積資訊的 hidden state 通道,常用於架構與 mechanistic interpretability 討論
- Retrieval Cost
RAG 檢索帶來的 latency、token、embedding、reranker、LLM call 與維護成本,用來判斷增強是否划算
- Retrieval Recall
衡量 RAG 檢索是否把應該命中的文件或 chunk 放進 top-k 結果,是 component-level eval 的核心指標
- Retrieval Source
RAG 從哪個 corpus、index、tool 或外部系統取回內容,決定來源可信度、freshness、權限與引用責任
- Sampling Constraint
推論時限制下一個 token 候選集合的控制手段,用來把模型生成導向合法格式或特定選項
- Structured Output
讓 LLM 輸出可被 parser 穩定消費的推論階段設計:JSON mode、schema-guided decoding、grammar 約束都屬於這一層
- Three-Layer Architecture
把本地 LLM 工具拆成介面層、推論伺服器層、模型權重層的基礎心智模型
- Tool Result Misread
Agent 誤讀工具輸出,把錯誤、空結果或部分成功當成成功,導致後續步驟建立在錯誤狀態上
- Tool-Use Permission Model
把 LLM tool use 的讀取、寫入、外部副作用與審查節點分級管理的權限模型
- Training Example Coverage
訓練資料中的任務範例是否覆蓋足夠情境,決定模型在 function calling、格式輸出與邊界案例上的穩定性
- Unigram Tokenizer
以機率模型選擇子詞切分的 tokenizer 演算法,常見於 SentencePiece 的 unigram 模式
- Word2Vec
早期靜態詞向量方法,用 skip-gram / CBOW 從上下文學出詞語 embedding
- WordPiece
以 likelihood improvement 選擇子詞合併的 tokenizer 演算法,BERT 系列代表性使用
- 5.0 VRAM + RAM 分層預算
PC 獨立 GPU 場景的記憶體預算判讀:VRAM 是快的世界、RAM 是大的世界、PCIe 把兩個世界連起來
- 6.0 模型供應鏈與信任邊界
個人 dev 用本地 LLM 時的模型權重來源信任:GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查
- Acceptance Rate
speculative decoding 中 drafter 提出的 token 被 target model 接受的比例、決定實際加速倍率
- Activation Function
在 linear layer 之間插入的非線性函數、讓神經網路能表達非線性關係
- Active Parameter
MoE 模型每生成一個 token 實際參與計算的參數量、跟模型總參數量不同、影響推論速度上限
- Adam / AdamW
對每個參數自適應 learning rate 的 optimizer、LLM 訓練主流選擇
- Agent Loop
LLM agent 自我循環的工作流:LLM 規劃下一步、執行 tool、看結果、再規劃下一步、直到任務完成或停止條件觸發
- Agent Memory
Agent 在 context window 之外管理長期狀態的設計、五個層次:working / short-term / long-term episodic / semantic / procedural
- Attention
Transformer 內部讓每個 token 對其他 token 加權平均的核心機制、形成 KV cache 跟 context window 的計算基礎
- Backpropagation
從 output loss 反向遞推、用 chain rule 算出每個權重的 gradient 的演算法
- Batching
多 request 一起跑、攤平 model load 成本:production LLM inference 的核心優化、決定 throughput vs latency 取捨
- Beam Search
同時保留 K 條候選 sequence 的 decoding 策略、機器翻譯主流、chat / coding 場景慎用
- Bind Address
伺服器決定接受哪些網路介面的請求、127.0.0.1 / 0.0.0.0 / 具體 LAN IP 對應三層不同的暴露範圍
- BPE(Byte-Pair Encoding)
用「最常一起出現的字元對」合併建詞彙表的 tokenization 演算法、GPT / Llama 等主流
- Catastrophic Forgetting
Fine-tune 模型時、新訓練資料覆蓋掉原本學到的能力的現象、LoRA / 資料 mixing 是主要緩解
- Causal Mask
在 self-attention 裡擋掉「未來位置」的遮罩、讓 LLM 自回歸生成在訓練時也成立
- Chain-of-Thought(CoT)
讓 LLM 先輸出推理步驟再給最終答案的 prompting / 訓練方式、reasoning model 的基礎機制
- Chunking
把長文件切成可檢索片段的設計決策:resolution vs context loss 的本質取捨
- Client-Side LLM / Embedding
在 browser 內直接跑 LLM 或 embedding model 的 paradigm、靜態網站做 RAG 的關鍵基底
- CLIP
OpenAI 2021 提出的 contrastive image-text pretraining、現代 VLM 的 vision encoder 大多衍生自它
- Constrained Decoding
推論時用 grammar 強制 LLM 輸出符合特定格式(JSON / regex / CFG)的 sampling 機制、把不合法 token 的機率歸零
- Context Budget
Coding agent 的 context window 拆分配額:system prompt + tool schema + history + file content + reasoning + tool result 各佔多少、留多少 margin
- Contrastive Learning
用「相關 vs 不相關」成對 / 三元組樣本訓練 embedding 的方法、現代 embedding model 的核心訓練 paradigm
- Cross-Entropy
衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss
- Dot Product
兩個向量對應位置相乘再加總、attention score 跟相似度判讀的基礎
- DPO(Direct Preference Optimization)
RLHF 的簡化替代:跳過 reward model、直接從人類偏好資料 fine-tune LLM
- Embedding Layer
Transformer 第一層的查表結構、把整數 token ID 轉成可運算的向量
- Entropy
資訊論衡量「分佈的不確定性」的指標、cross-entropy / KL divergence 的基底
- FFN(Feed-Forward Network)
Transformer block 內部的兩層 linear + activation、佔模型參數量的多數
- Flash Attention
Attention 計算的記憶體友善實作、減少 GPU memory 讀寫、提升長 context 推論吞吐
- Floating Point(FP32 / FP16 / BF16)
fp32 / fp16 / bf16 浮點格式的位元結構與 LLM 訓練 / 推論的精度取捨
- Forward Pass
input 經過所有 layer 的計算、得到 output 的單向流程;推論跟訓練都會跑、訓練多一個反向階段
- GPU Compute Backend
GPU 加速計算的底層 API 介面(CUDA / ROCm / Vulkan / Metal / SYCL)、決定推論軟體能否用 GPU 跑得快
- Gradient
loss function 對權重的偏微分向量、指出「該往哪個方向調權重才能讓 loss 下降最快」
- Gradient Explosion / Vanishing
深層網路訓練中 gradient 透過 chain rule 累乘、容易爆炸或衰減到 0 的兩種失敗模式
- Hallucination
LLM 生成內容看起來合理但事實錯誤、引用不存在的來源、虛構不存在的 entity 的現象
- Hands-on:安裝 ComfyUI + SDXL base
git clone、venv、pip install requirements、SDXL safetensors 放哪、--listen 啟動 server、瀏覽器 workflow 驗證
- Homebrew
macOS 上社群維護的套件管理器、用一行指令安裝 CLI 工具與背景服務
- Hybrid Search
把字面 retrieval(BM25)跟語意 retrieval(embedding)的結果用 RRF 等方法合併、補單一路線的盲點
- Image Token
VLM 把圖片轉成「對 Transformer 而言跟 text token 同質」的向量、計入 context window 預算
- KL Divergence
衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束
- launchd Service
macOS 原生的服務管理機制、把 process 註冊成自動啟動的 daemon 或 agent
- Layer Normalization
在每個 token 的 hidden state 上做正規化(減 mean、除 std)、穩定深層網路訓練
- Learning Rate
gradient descent 每步更新權重的幅度、訓練中最敏感的 hyperparameter
- LLM Benchmarks(MMLU / HumanEval / SWE-bench 等)
LLM 能力評估的標準 benchmark 集合:MMLU / HumanEval / MBPP / SWE-bench / MT-Bench 等的覆蓋範圍與失效情境
- LLM Tracing
把 LLM 應用的每次 LLM call / tool call / memory op 編成結構化 span、用 OpenTelemetry GenAI semantic conventions 標準化
- LLM-as-Judge
用 LLM 評估另一個 LLM 的輸出品質、production eval 的主流方法、500-5000× 成本降但有 bias 要處理
- Logit
softmax 之前的原始實數分數、每個 vocab token 一個值、可正可負
- LoRA
Low-Rank Adaptation:凍住原模型權重、只訓兩個小矩陣的 parameter-efficient fine-tuning
- Loss Function
把「模型預測」跟「正確答案」的差距量化成一個純量、訓練的最佳化目標
- Lost in the Middle
LLM 對 long context 中段內容的 attention / recall 顯著低於開頭與結尾的現象
- Matrix Multiplication
LLM 推論最頻繁的單一運算、forward pass 每層的核心、memory bandwidth 瓶頸的根源
- Mixture of Experts (MoE)
把 transformer 的 FFN 層拆成多個專家、每 token 只啟用少數、總參數大但每 token 計算量小的架構
- Model Card
Hugging Face 等平台上模型的 metadata 文件、列出模型來源、訓練資料、能力、限制、授權
- Model Tag
Ollama 等推論伺服器用來定位特定模型版本的命名規則
- MoE CPU 卸載
把 Mixture-of-Experts 模型不活躍的專家層權重放在系統 RAM、用到再走 PCIe 拉回 GPU、讓有限 VRAM 跑得了更大模型
- MTEB
Massive Text Embedding Benchmark:8 大類 56 任務、評估 embedding model 跨任務通用能力的標準
- Multi-Head Attention
把 attention 切成多個 head 並行計算、讓模型能同時注意多種模式
- Multimodal Fusion
VLM 把 vision encoder 跟 LLM 結合的方式:early fusion / cross-attention / native multimodal 三條路線
- Needle in a Haystack
把一個事實藏在 long context 不同位置、測試 LLM 能否抓出來的 benchmark 方法
- NVLink
NVIDIA 多 GPU 之間的高速互連介面、提供比 PCIe 更高的卡間頻寬、消費級 RTX 系列普遍不支援
- OWASP LLM Top 10
LLM 應用最常見 10 大資安風險的業界共同詞彙、跟模組六本地 dev 視角的 mapping 表
- PCIe
PC 上連接 GPU 跟主機板的高速序列匯流排、影響模型載入速度跟 MoE 卸載時的推論吞吐
- Perplexity
cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」
- Port 與 Localhost
TCP port 與 listen address 如何決定 API server 的對外暴露範圍
- Pre-training
LLM 訓練的第一階段:用 trillion-token 級網路文字做 next-token prediction、得到 base model
- Prefix Cache
把多個請求共用的前綴 prompt 的 KV cache 重用、省下重複 prefill 算力的優化、production 多用戶服務的常見設計
- Prompt Cache
重複出現的 prompt prefix 在推論伺服器或 LLM 服務端被 cache、後續 query 跳過 prefill、大幅降 cost 跟 TTFT
- Prompt Injection
把惡意指令藏進 LLM 會讀到的內容、誘導 LLM 跑出非開發者預期行為的攻擊類別、OWASP LLM01 列入頭號威脅
- QLoRA
把 base model 量化到 4-bit + LoRA fine-tune 的組合、消費級 GPU 也能 fine-tune 大模型
- Reasoning Model
訓練成自然輸出長 reasoning trace 的 LLM 變體、o1 / DeepSeek-R1 / Claude thinking 為代表
- Refusal Rate
LLM 拒絕回答 prompt 的比例、是 production LLM 服務偵測對齊強度跟異常行為的常用訊號
- Reranker
對 retrieval top-K 結果用 cross-encoder 重新排序的 RAG 第二階段、品質提升顯著但 latency / cost 增加
- Residual Connection
把 layer 的輸入直接加到輸出上的「跳接」、讓深層網路的梯度能穩定回流
- RLHF
Reinforcement Learning from Human Feedback:用人類偏好訓練的 reward model 透過 RL 對齊 LLM
- RoPE(Rotary Position Embedding)
用旋轉矩陣把位置資訊直接旋轉進 Q/K 向量、現代 LLM 主流的位置編碼方式
- Sandbox
把程式跑在受限制環境的隔離技術、限制檔案 / 網路 / 系統呼叫權限、是 tool use 跟 MCP server 副作用控制的基礎
- Scaffold vs Harness
Coding agent 的兩個工程層次:scaffold 是建構時靜態結構、harness 是 runtime 的 tool dispatch + context management + safety
- Self-Attention
Q / K / V 都從同一個 sequence 投影出來的 attention、Transformer 的標誌性設計
- SentencePiece
Google 開源的多語言 tokenization 框架、支援 BPE 跟 unigram 演算法、處理空白統一
- SFT(Supervised Fine-Tuning)
在 base model 上用「指令-回答」對資料微調、讓模型會跟著指令走
- SGD
Stochastic Gradient Descent:每次用 mini-batch 算 gradient 更新權重的基礎 optimizer
- Shell 背景 Process
終端機 process 的前景 / 背景生命週期、訊號控制、找出佔用 port 的 process
- Softmax
把任意實數向量正規化成「總和為 1、每個分量 ∈ [0,1]」的機率分佈
- Special Tokens
在 vocab 中保留給特殊用途的 token:sequence 邊界、角色標記、padding、tool call 等
- Subagent
Coding agent 中把特定責任拆給專門子 agent 的設計模式、各 subagent 有獨立 context、由 main agent 透過 handoff 調度
- System Prompt
LLM application 中由開發者預設、不直接顯示給使用者的指令層、定義模型的角色、行為規範、輸出格式
- Tensor
多維陣列、矩陣是 2D 特例、PyTorch / MLX / JAX 等 framework 的核心型別
- Test-Time Compute
推論時動態增加計算量換取答案品質的 paradigm、reasoning model 跟 best-of-N 的共同基底
- Tool Use
LLM 透過結構化呼叫外部工具(讀檔、查資料庫、發 API request)來擴展能力的設計、function calling 跟 MCP 是常見實作
- Top-K / Top-P / Min-P Sampling
從機率分佈取樣前先過濾低機率 token 的三種策略、現代 LLM 推論主流
- Vector Database
為高維向量 (embedding) 設計的儲存 + 近似最近鄰 (ANN) 檢索系統:RAG 從 prototype 跨到 production 的關鍵元件
- Vector Norm
衡量向量大小的純量值、L1 / L2 / L∞ 各有用途、cosine similarity 的基礎
- Vision Encoder
VLM 內部負責把圖片轉成可進 Transformer 的向量序列的模組、ViT / CLIP encoder 為主流
- VLM(Vision-Language Model)
同時吃圖片 + 文字輸入、產生文字輸出的 LLM 變體、coding 工作流中處理截圖 / 設計稿 / UI debug 的基底
- Vocabulary Size
tokenizer 詞彙表的 token 總數、影響 embedding 大小、tokenization 粒度、多語言友善度
- VRAM
顯卡上的記憶體、跟系統 RAM 是兩塊獨立預算、決定能載入多大模型權重跟 KV cache
- 0.1 為什麼 LLM 生字慢
自回歸架構與記憶體頻寬瓶頸:為何即使 Mac 算力很強,本地 LLM 仍一個字一個字吐
- 1.1 LM Studio:GUI 探索模型
GUI 取向的本地推論伺服器:內建模型瀏覽器、speculative decoding 設定面板、適合探索新模型
- 2.1 機率與資訊論
LLM 輸出的本質是機率分佈:softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色
- 3.1 Embedding 空間
token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的
- 4.1 RAG 原理:retrieval + augmentation 模式
為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因
- Autoregressive
LLM 一次生成一個 token、把已生成內容作為下一次輸入的架構
- Base Model
未經指令微調的原始模型:擅長文字接龍、適合下游微調用途
- Context Window
模型一次能處理的最大 token 數量:prompt 加生成的總和上限
- Diffusion
產圖用的生成式 AI 架構:跟寫 code 用的 Transformer 是不同路線
- Drafter Model
speculative decoding 中用來快速猜未來 token 的小模型
- Embedding Model
把文字轉成向量的模型:用於 codebase 索引與語意搜尋
- Function Calling
模型訓練階段建立的「呼叫工具」能力:知道何時該呼叫、傳什麼參數
- GGUF
llama.cpp 生態定義的模型權重格式:把權重、tokenizer、metadata 打包成單一檔案
- Inference Server
載入模型權重、處理 prompt、產生 token 的常駐 process
- Instruction-Tuned Model
經過指令微調的模型:會跟著 prompt 走、回答使用者問題
- KV Cache
已處理 token 的 attention 中間結果暫存:避免重算、加速後續生成
- LLM Agent
把控制流交給 LLM 的應用模式:自主決策、跨多步呼叫工具、人類角色從主導變監督
- MCP(Model Context Protocol)
LLM application ↔ 外部 tool server 之間的標準化協議、複用 OpenAI 相容 API 的成功模式
- Memory Bandwidth
記憶體每秒能讀寫多少 bytes:決定本地 LLM 生字速度的真正瓶頸
- MLX
Apple 釋出的 Apple Silicon 數值運算 framework:類似 PyTorch / JAX 的 Mac 對應物
- Multi-Token Prediction (MTP)
Google 為 Gemma 系列釋出的 speculative decoding 工程化實作
- OpenAI 相容 API
本地推論伺服器跟雲端 OpenAI 共用的 API 形狀標準
- Prefill
Prompt 首次處理時的計算階段:把整段輸入跑過模型、產生 KV cache
- Quantization
用較少 bits 表示模型權重:壓縮記憶體佔用、加快生字速度,代價是少量品質衰減
- RAG
Retrieval-Augmented Generation:動態外掛知識給 LLM、繞開模型參數記憶的靜態限制
- Speculative Decoding
用小模型猜未來 token、大模型並行驗證的加速技巧
- SWE-bench
用真實 GitHub issue 量化 LLM coding 能力的 benchmark
- Token
LLM 處理文字時的最小單位:介於字元與單字之間
- Tokens Per Second
LLM 每秒能生成幾個 token:生字速度的標準量化指標
- Transformer
寫 code 用的 LLM 神經網路架構:基於 attention 機制、自回歸生成 token
- TTFT
Time To First Token:送出 prompt 到第一個 token 出現的等待時間
- Unified Memory Architecture
Apple Silicon 讓 CPU / GPU / NE 共用同一塊記憶體:跑大模型的優勢來源
- Case Study:Blog 語意搜尋從 pickle 到 production
為 CLI 或個人工具選 RAG storage backend、或原始選型理由被 benchmark 推翻但結論不變時,如何區分結論、理由與前提
- 4.2 RAG 檢索增強:query rewriting / HyDE / multi-step / context packing
Query 端增強(rewriting / expansion / HyDE)、multi-step iterative retrieval、retrieve 後的 context packing(dedup / ordering / summarization)、adaptive retrieval:vanilla RAG 不夠時的下一層工具箱
- 5.1 MoE 模型與 CPU 卸載策略
PC 場景把 MoE 不活躍專家層留在系統 RAM 的判讀:何時值得卸載、卸幾層、對 prefill 跟生成的影響各自不同
- 6.1 推論伺服器的綁定與暴露範圍
個人 dev 場景下 llama-server / Ollama / LM Studio 的 bind address 判讀:127.0.0.1 vs LAN vs 反代、預設安全、誤開放給內網的後果
- Hands-on:安裝 whisper.cpp 做語音轉文字
brew install whisper-cpp、下載 GGML model、Metal 加速、ffmpeg 餵 WAV、484ms 完成 7 秒音訊轉錄
- 0.2 介面 / 伺服器 / 模型三層架構
把任何本地 LLM 工具放回正確的層級,用三層心智模型看懂工具關係
- 1.2 llama.cpp:底層推論引擎
GGUF 格式、量化、MTP 仍 beta;多數讀者不需要直接接觸,Ollama 已經包好
- 2.2 微積分與最佳化
從 gradient、chain rule 到 SGD / Adam:LLM 訓練如何更新數十億參數
- 3.2 Attention 機制
Query / Key / Value、scaled dot-product attention、multi-head attention:Transformer 的核心運算
- 5.2 KV cache 量化策略
PC 場景用 K=Q8 / V=Q4 等量化把 KV cache 壓縮、騰出 VRAM 開大 context window 或加併發數的判讀
- 6.2 tool use 與 MCP server 的權限模型
個人 dev 場景下 tool use / MCP server 的副作用權限:檔案系統 / shell / 網路存取邊界、第三方 MCP 信任、副作用的可逆性
- Hands-on:安裝 Piper TTS 做文字轉語音
pip install piper-tts、ONNX voice model、stdin 餵文字、WAV 輸出、跟 Whisper 互為 round-trip 驗證
- 0.3 OpenAI 相容 API
為什麼幾乎所有本地 LLM 工具不用改就能切到本地:背後是同一套 API 形狀
- 1.3 VS Code + Continue.dev 整合
安裝 Continue 擴充套件、config.json 設定、Cmd+L 對話 / Cmd+I 行內編輯快捷鍵
- 2.3 數值精度與量化的數學依據
fp32 / bf16 / fp16 / int8 / int4 的差別、量化能省哪些 bits、品質衰減從哪裡來
- 3.3 Transformer 架構細節
Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream
- 4.3 Tool use 原理:LLM 跟外部世界互動
Structured output 是 LLM 跨入工程系統的橋、function calling 取捨、為什麼本地小模型 tool use 表現崩潰
- 5.3 llama.cpp 在 PC 上
CUDA / ROCm build 取得、核心旗標地圖、llama-bench 校準、多卡 tensor split 的入門設定
- 6.3 IDE 場景的 prompt injection
個人 dev 場景下 IDE 寫 code 工作流的 prompt injection:codebase 內容、外部文件、剪貼簿作為攻擊面、跟雲端 LLM 場景的差異
- Hands-on:用 blog content 當 corpus 跑 RAG
200 行 Python:embedding + cosine retrieval + Ollama chat、validating 4.0 RAG 原理
- 0.4 MLX / MTP / oMLX 的區別
三個常被混為一談的術語:framework、加速技巧、特化 server,疊加而非互斥
- 1.4 寫 code 場景的模型選型優先順序
Gemma 4 31B MTP → Qwen3-Coder 30B → Qwen3 14B → gpt-oss 20B 的取捨與適用情境
- 2.4 想學更深:推薦公開課程
MIT、Stanford、Harvard 等公開課程:數學基礎跟 LLM 預備知識的完整學習路線
- 3.4 訓練流程:pre-train → SFT → RLHF
LLM 的三階段訓練:預訓練、指令微調、人類反饋強化學習;各階段目標與最新替代方案
- 4.4 Agent 架構原理
Agent loop 結構、失敗模式、什麼任務適合 vs 不適合、跟人類審查的協作模型
- 4.5 人機協作拓樸:何時人介入、怎麼介入
Centaur vs Cyborg 工作模式、jagged frontier、HITL 三種觸發時機(pre-act / mid-stream / post-hoc)、確認流程的設計避免橡皮圖章化
- 5.4 LM Studio 在 Windows
Windows + 獨立 GPU 場景用 LM Studio:CUDA / ROCm backend 選擇、GUI 內對應 -ngl / cache-type / cpu-moe 的設定位置
- 6.4 跨雲端 / 本地的資料邊界
個人 dev 場景下混用雲端 LLM 跟本地 LLM 時的 prompt 洩漏點:Continue.dev 多 provider 設定、隱私資料流、按敏感度分流的判讀
- Hands-on:用 blog content 寫一個最小 MCP server
stdio JSON-RPC、stdlib-only Python、暴露 blog content 給 LLM 用、validating 4.3 應用層協議
- 0.5 Apple Silicon 記憶體預算
記憶體決定能跑什麼,Q4 量化下的可運作模型對照與系統保留
- 1.5 期望管理:本地 LLM 的擅長領域與分工
本地 LLM 是免費的初階 pair programmer:辨識它的擅長領域、跟雲端旗艦做結構性分工
- 3.5 Sampling 與 Decoding 策略
Greedy、beam search、top-k、top-p、temperature、min-p:模型輸出後怎麼挑下一個 token
- 5.5 PC 場景的模型選型優先順序
PC 獨立 GPU 場景下、MoE 卸載讓「全載小模型 vs 卸載大 MoE」變成主要的選型軸;對應不同 VRAM 容量的模型推薦
- 6.5 跨進 production 的 routing 中樞
個人 dev → 團隊 → production LLM 服務的三層演化、跟 backend/07 對應卡片的 routing 清單
- Hands-on:Ollama 改檔案 / 寫程式碼的權限邊界在哪
四組對照實驗:Ollama 自己沒 FS / shell 權限、wrapper 才有;--dry-run / --confirm / --auto 三檔審查粒度的取捨
- 0.6 判讀本地 LLM 資訊的五個框架
本地 LLM 資訊更新快,學會用版本、層級、變數、能力、資料流五個框架評估文章與宣稱
- 1.6 延伸方向:Web UI、coding agent、產圖
日常路徑跑穩後可以玩的延伸:Open WebUI、aider、ComfyUI;先把基底跑穩再進階
- 3.6 Tokenization:BPE、SentencePiece、Tiktoken
把文字切成 token 的算法:為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響
- 4.6 應用層協議:function calling / structured output / MCP
三個常被混為一談的概念:模型能力、sampling 約束、server 協議,三者的層級差異與組合方式
- 5.6 GPU 廠商差異
NVIDIA CUDA、AMD ROCm、Intel ARC 在 llama.cpp 生態的相對位置、選卡時的判讀軸
- 6.6 OWASP LLM Top 10 對照圖
把模組六的本地 dev 視角安全章節對照到 OWASP LLM Top 10 2025、補出個人 dev 場景跟企業合規溝通的共同詞彙
- Hands-on:用 QLoRA 在本機 fine-tune coding 模型
Apple Silicon Mac / PC 獨立 GPU 上跑 QLoRA fine-tune 的完整流程:環境、資料、訓練、evaluation、合併、部署到 Ollama
- Hands-on:跨資料夾風格 follow 任務的模型對比
1B / 4B / 8B / 跨代 4B 在「讀風格參考、follow 既有格式、寫新章節」任務上的 structural metrics 對比、揭示 model size 不是唯一因素
- 0.7 隱私 / 資安的資料流原理
從「位置」到「資料流」的思考升級:信任邊界、合約模型、零信任原則套用到 LLM 工作流
- 1.7 排錯方法論:用三層架構做故障定位
故障定位的分層思考、症狀到層級的對應反射、log 在三層的角色差異、最小可重現的縮減策略
- 3.7 跨語言場景的 tokenizer 與訓練分佈原理
為什麼模型對不同語言表現不一致:tokenizer + 訓練資料分佈雙因素、語言選擇取捨
- 4.7 Workflow 編排模式
Pipeline / router / parallel / reflection:多 LLM call 組合的四種基本模式與退化條件
- 0.8 Deterministic vs Fuzzy Engineering:軟體設計典範的位移
傳統 deterministic 軟體跟 fuzzy LLM 軟體在資料、邏輯、分解、實驗成本四個維度的根本差異、以及哪段該 deterministic、哪段該 fuzzy 的決策框架
- 4.8 Multi-Agent 拓樸:flat / hierarchical / agent-as-tool
從 multi-call workflow 走到 multi-agent system 的判讀、flat vs hierarchical 拓樸、agent-as-tool 的 MCP 視角、specialization 跟 orchestration overhead 的取捨
- 3.8 Reasoning models:test-time compute paradigm
Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務
- Hands-on:LLM 運行中 + 結束的資源管理
RAM / 磁碟 / port 三個 dimension 的觀察跟釋放、Ollama keep_alive 跟 ComfyUI 兩種 lifecycle 對比、實測釋放數字
- Hands-on:用本地 LLM 跑 judge harness(最小可行版)
在 Ollama / LM Studio 上跑 local reasoning model 當 judge、對自己工作流案例做 eval、JSONL in / JSONL out 最小 harness
- 3.9 Speculative decoding 內部:drafter / 驗證 / 加速上限
speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體
- 4.9 Production 部署的資源評估原理
從本地單 user 到 production multi-tenant:concurrent users、cost model、observability、SLA、capacity planning 的設計取捨
- Hands-on:RAG / MCP 的資源 footprint
RAG ingest / query / MCP server 三階段的 RAM / 磁碟 / process 實測、多模型並存的 RAM 衝突、本地 LLM 跑 RAG 跟單純 chat 的差異
- 3.10 Constrained decoding 內部:grammar mask 跟性能取捨
Constrained decoding 的內部運作:token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速
- 4.10 衍生產物管理原理:什麼進 git、什麼不該
LLM 應用的 source / derived / external 三類產物對應 git / build cache / registry、與 production 部署的 reproducibility / cost / share 取捨
- 4.11 Long context engineering
128K / 1M context 模型怎麼用:claimed vs effective context、lost-in-the-middle、context 設計策略、Long context vs RAG 取捨
- 3.11 想學更深:推薦公開課程
Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face:LLM 理論深入學習的完整路線
- 4.12 Embedding model 內部:訓練、選型、in-domain fine-tune
Embedding model 怎麼訓練(contrastive learning + hard negative mining)、怎麼挑(MTEB / 大小 / domain)、何時該自己 fine-tune
- 4.13 Eval 設計座標系:三軸、八象限、何時測什麼
Eval 設計三軸(objective↔subjective / component↔end-to-end / quantitative↔qualitative)、八象限的對應 eval 工具、軸選錯的訊號、跟 benchmarking / LLM-as-judge / tracing 的關係
- 4.14 Benchmarking 與評估方法論
判讀 model card benchmark 數字、做自己工作流的 in-house benchmark、量測本地推論速度的完整方法論
- 4.15 Vision in coding workflow:本地 VLM 怎麼接寫 code
VLM 在 coding 工作流的 use cases、本地 VLM 選型、跟雲端 VLM 的分工、Continue.dev / Ollama 整合現狀
- 4.16 靜態 / serverless RAG deployment:架構選擇與資安取捨
沒 backend 的場景怎麼做 RAG:四種 deployment 方案、API key 暴露問題、CORS / abuse / 第三方信任、跟模組六的 routing
- 4.17 Coding agent harness:scaffold / context engineering / subagent
Coding agent 的內部設計:scaffold vs harness 分層、context budget 25% 規則、subagent 拓樸、跟 Claude Code / Cursor / Aider 的 mapping
- 4.18 Prompt caching 工程實務:cost / latency 最大槓桿
Prompt cache 怎麼運作、cache_control 設計、coding agent 跟 long-context 的 cache pattern、anti-pattern 跟 cache miss 訊號
- 4.19 Agent memory 分層架構
Agent 在 context window 之外管理長期狀態的設計:working / short-term / long-term episodic / semantic / procedural 五個層次、寫入時機、retrieval 設計、失敗模式
- 4.20 LLM tracing 與 observability
OpenTelemetry GenAI semantic conventions、結構化 span 設計、cost / latency 監控、failure debug 流程、跟 LLM-as-judge eval 的串接
- 4.21 LLM-as-Judge 評估方法
LLM 評估 LLM 的 production eval 方法:rubric design、pairwise / direct scoring、三大 bias 緩解、跟 trace 串接的閉環、calibration
- 4.22 RAG storage 工程:從 pickle 到 vector database 的選型判讀
RAG storage backend 選型:規模到哪個階段該從 in-memory 升級到 vector DB、dependency chain 如何收窄選項
- LLM Deployment 供應鏈完整性
把 LLM 模型權重、推論伺服器、第三方 plugin 三條 production 供應鏈納入既有 artifact trust 框架的判讀
- LLM 多租戶推論隔離
production LLM 服務的多租戶隔離:KV cache 不共享、log / model artifact 隔離、跨用戶 prompt 洩漏面
- LLM Agent Prompt Injection 後果治理
production LLM agent 場景的 prompt injection 後果:tool spec 設計、agent loop 限制、review checkpoint、跟 incident workflow 的接合
- LLM Log 與 PII 治理
production LLM 服務的 prompt log 累積、PII 偵測與過濾、保留期限與合規對齊
- LLM Service 偵測訊號覆蓋
production LLM 服務的 detection 訊號設計:tool call 異常模式、prompt injection 觸發徵兆、abuse 跟濫用模式、跟既有 detection-coverage 框架的接合
- 4.0 Prompt 技術光譜:手法分類、取捨、組合模式
Zero-shot / few-shot、chain-of-thought、role / template、reflection 等 prompt 技術的分類與取捨、何時 stack 何時不要 stack、跟 fine-tune / RAG / chaining 的邊界
- Hands-on Quickstart:clone repo 後跑通所有 demo
4 步驟跑通 RAG / MCP / permission demo 的 setup 跟驗證指令、整合 hands-on 系列所有章節的 prerequisite
- 0.0 本地 vs 雲端 LLM
從隱私、成本、速度、能力四個維度建立本地與雲端 LLM 的基本對照
- 1.0 Ollama:主流推論伺服器
一行 brew 裝完、ollama run 一鍵跑 Gemma 4 MTP、OpenAI 相容 API on localhost:11434
- 2.0 線性代數:向量、矩陣、空間
LLM 內部運算的基底:向量、矩陣、向量空間、內積、norm、矩陣乘法的角色
- 3.0 神經網路基礎
從單一 neuron 到 multi-layer:weights、activation function、forward / backward pass 的角色
- Hands-on:安裝 Ollama + 拉第一個 Gemma 模型
brew install ollama、launchd service、ollama pull、curl 驗證 OpenAI 相容 API