Llm | Tarragon

"Llm"

2026-05-14 Adaptive Retrieval RAG 控制流中先判斷是否需要檢索，只在外部知識有價值時才 retrieve
2026-05-14 Agent-as-Tool 把一個專責 agent 包成可被另一個 agent 呼叫的 tool，形成跨 agent 的責任邊界
2026-05-14 Beyond LLM: Enhancing LLM Applications (Stanford CS230) Stanford CS230 Deep Learning 講座整理：從 prompt engineering、fine-tuning、RAG 到 agentic workflow、evals、multi-agent system 的全景 survey。保留英文原文。
2026-05-14 BNF（Backus-Naur Form）用遞迴產生式描述語法的經典記法，是 CFG、parser 與 grammar-constrained sampling 常見的基礎表示
2026-05-14 Capability Spectrum 把模型能力視為連續光譜而非支援 / 不支援二分，用覆蓋度、穩定性與失敗模式判讀真實可用性
2026-05-14 Case Study：customer support agent 從 task decomposition 到 eval 把模組四原理串成端到端案例：observe → decompose → design workflow → instrument trace → design eval → iterate。每段標出引用哪章。
2026-05-14 Context Drift Agent 長任務中累積上下文逐步偏離原始目標，導致後續行動看似合理但整體跑偏
2026-05-14 Context Packing RAG retrieve 後把 chunks 去重、排序、壓縮、標來源，再塞進 prompt 的組裝決策
2026-05-14 Deterministic vs Fuzzy engineering LLM 軟體 vs 傳統軟體在資料 / 邏輯 / 行為一致性 / 實驗成本四維度的典範差異、決定哪段該包 guardrail
2026-05-14 DSL（Domain-Specific Language）為特定業務或技術領域設計的小語言，在 LLM 應用中常作為可解析、可驗證、可執行的中介輸出
2026-05-14 Few-shot prompting 在 prompt 內塞 input-output 範例對齊任務、不動模型權重的 in-context learning 技術
2026-05-14 Frozen baseline Eval 系統中固定特定 prompt + model 當長期對照、讓行為漂移可見的標準作法
2026-05-14 Goal Drift Agent 把子目標誤當成整體目標，提早停止或朝錯誤完成條件前進的失敗模式
2026-05-14 Grammar 描述合法字串形狀的形式規則，在 structured output 中用來限制 LLM 每一步可輸出的 token
2026-05-14 Grouped-Query Attention 讓多個 query head 共用較少的 key/value head，以降低 KV cache 體積與推論記憶體壓力
2026-05-14 Guardrail 在 LLM fuzzy 行為外層加上 schema、validator、policy、human review 與 monitoring 的控制設計
2026-05-14 Human-in-the-loop（HITL）人類介入 LLM 工作流的設計：三種觸發時機（pre-act / mid-stream / post-hoc）、避免橡皮圖章化的四條件
2026-05-14 HyDE（Hypothetical Document Embeddings）用 LLM 生成假設文件、對假文件做 embedding 去 retrieve、繞過 query-document gap 的 RAG 增強技術
2026-05-14 In-Context Learning 模型在不更新權重的情況下，從 prompt 內範例、規則與上下文臨時對齊任務的能力
2026-05-14 Instruction Following 模型遵守任務範圍、格式、限制與停止條件的能力，是評估 instruction-tuned 模型能否落地的核心訊號
2026-05-14 Jagged frontier AI 能力分佈不規則的 framing：某些看似簡單的任務 AI 容易壞、某些看似複雜的任務 AI 反而做得好
2026-05-14 Lark Grammar Lark parser 使用的 EBNF-like grammar 格式，常被 structured output 工具拿來描述自訂輸出語法
2026-05-14 llama.cpp Tensor Split llama.cpp 多 GPU 場景中把模型張量按比例切到多張卡上的權重分配機制
2026-05-14 Local vs Cloud LLM 用隱私、成本、延遲、能力與維運責任判斷任務該跑本地模型還是雲端模型
2026-05-14 Model Supply-Chain Trust 判斷模型權重、量化版本、registry 與本機檔案是否可信的供應鏈信任框架
2026-05-14 Multi-agent system 多個 LLM agent 協作的系統、跟 multi-call workflow 的差異在控制流跟責任邊界、三種拓樸 flat / hierarchical / agent-as-tool
2026-05-14 Multi-Step Retrieval RAG 中多輪 retrieve → 判斷 → 再 retrieve 的控制流，用來處理 multi-hop 問題
2026-05-14 oMLX 以 MLX 為基礎、針對 Apple Silicon 長 context 與 SSD KV cache 優化的本地推論伺服器路線
2026-05-14 Positional Encoding 把 token 位置資訊注入 Transformer 的機制，讓 attention 能分辨順序與距離
2026-05-14 Query Decomposition 把複合 query 拆成可獨立檢索的子 query，平行取得證據後再合成答案
2026-05-14 Query Expansion RAG 檢索前把一個 query 擴成多個語意變體，增加 coverage，再合併 retrieval 結果
2026-05-14 Query Rewriting 在 RAG 檢索前改寫使用者查詢，讓 query 更接近文件語言與索引分佈
2026-05-14 Query-Document Gap 使用者 query 與文件語言在詞彙、形態、抽象層級或領域分佈上的落差，是 RAG retrieval miss 的常見原因
2026-05-14 Reflection / Self-critique 要求模型先輸出一版、再 critique 自己、再修改的 prompting / workflow 模式、有自身失敗模式
2026-05-14 Residual Stream Transformer block 之間持續傳遞與累積資訊的 hidden state 通道，常用於架構與 mechanistic interpretability 討論
2026-05-14 Retrieval Cost RAG 檢索帶來的 latency、token、embedding、reranker、LLM call 與維護成本，用來判斷增強是否划算
2026-05-14 Retrieval Recall 衡量 RAG 檢索是否把應該命中的文件或 chunk 放進 top-k 結果，是 component-level eval 的核心指標
2026-05-14 Retrieval Source RAG 從哪個 corpus、index、tool 或外部系統取回內容，決定來源可信度、freshness、權限與引用責任
2026-05-14 Sampling Constraint 推論時限制下一個 token 候選集合的控制手段，用來把模型生成導向合法格式或特定選項
2026-05-14 Structured Output 讓 LLM 輸出可被 parser 穩定消費的推論階段設計：JSON mode、schema-guided decoding、grammar 約束都屬於這一層
2026-05-14 Three-Layer Architecture 把本地 LLM 工具拆成介面層、推論伺服器層、模型權重層的基礎心智模型
2026-05-14 Tool Result Misread Agent 誤讀工具輸出，把錯誤、空結果或部分成功當成成功，導致後續步驟建立在錯誤狀態上
2026-05-14 Tool-Use Permission Model 把 LLM tool use 的讀取、寫入、外部副作用與審查節點分級管理的權限模型
2026-05-14 Training Example Coverage 訓練資料中的任務範例是否覆蓋足夠情境，決定模型在 function calling、格式輸出與邊界案例上的穩定性
2026-05-14 Unigram Tokenizer 以機率模型選擇子詞切分的 tokenizer 演算法，常見於 SentencePiece 的 unigram 模式
2026-05-14 Word2Vec 早期靜態詞向量方法，用 skip-gram / CBOW 從上下文學出詞語 embedding
2026-05-14 WordPiece 以 likelihood improvement 選擇子詞合併的 tokenizer 演算法，BERT 系列代表性使用
2026-05-12 5.0 VRAM + RAM 分層預算 PC 獨立 GPU 場景的記憶體預算判讀：VRAM 是快的世界、RAM 是大的世界、PCIe 把兩個世界連起來
2026-05-12 6.0 模型供應鏈與信任邊界個人 dev 用本地 LLM 時的模型權重來源信任：GGUF 完整性、Hugging Face / Ollama registry 信任、量化版本污染、檔案完整性檢查
2026-05-12 Acceptance Rate speculative decoding 中 drafter 提出的 token 被 target model 接受的比例、決定實際加速倍率
2026-05-12 Activation Function 在 linear layer 之間插入的非線性函數、讓神經網路能表達非線性關係
2026-05-12 Active Parameter MoE 模型每生成一個 token 實際參與計算的參數量、跟模型總參數量不同、影響推論速度上限
2026-05-12 Adam / AdamW 對每個參數自適應 learning rate 的 optimizer、LLM 訓練主流選擇
2026-05-12 Agent Loop LLM agent 自我循環的工作流：LLM 規劃下一步、執行 tool、看結果、再規劃下一步、直到任務完成或停止條件觸發
2026-05-12 Agent Memory Agent 在 context window 之外管理長期狀態的設計、五個層次：working / short-term / long-term episodic / semantic / procedural
2026-05-12 Attention Transformer 內部讓每個 token 對其他 token 加權平均的核心機制、形成 KV cache 跟 context window 的計算基礎
2026-05-12 Backpropagation 從 output loss 反向遞推、用 chain rule 算出每個權重的 gradient 的演算法
2026-05-12 Batching 多 request 一起跑、攤平 model load 成本：production LLM inference 的核心優化、決定 throughput vs latency 取捨
2026-05-12 Beam Search 同時保留 K 條候選 sequence 的 decoding 策略、機器翻譯主流、chat / coding 場景慎用
2026-05-12 Bind Address 伺服器決定接受哪些網路介面的請求、127.0.0.1 / 0.0.0.0 / 具體 LAN IP 對應三層不同的暴露範圍
2026-05-12 BPE（Byte-Pair Encoding）用「最常一起出現的字元對」合併建詞彙表的 tokenization 演算法、GPT / Llama 等主流
2026-05-12 Catastrophic Forgetting Fine-tune 模型時、新訓練資料覆蓋掉原本學到的能力的現象、LoRA / 資料 mixing 是主要緩解
2026-05-12 Causal Mask 在 self-attention 裡擋掉「未來位置」的遮罩、讓 LLM 自回歸生成在訓練時也成立
2026-05-12 Chain-of-Thought（CoT）讓 LLM 先輸出推理步驟再給最終答案的 prompting / 訓練方式、reasoning model 的基礎機制
2026-05-12 Chunking 把長文件切成可檢索片段的設計決策：resolution vs context loss 的本質取捨
2026-05-12 Client-Side LLM / Embedding 在 browser 內直接跑 LLM 或 embedding model 的 paradigm、靜態網站做 RAG 的關鍵基底
2026-05-12 CLIP OpenAI 2021 提出的 contrastive image-text pretraining、現代 VLM 的 vision encoder 大多衍生自它
2026-05-12 Constrained Decoding 推論時用 grammar 強制 LLM 輸出符合特定格式（JSON / regex / CFG）的 sampling 機制、把不合法 token 的機率歸零
2026-05-12 Context Budget Coding agent 的 context window 拆分配額：system prompt + tool schema + history + file content + reasoning + tool result 各佔多少、留多少 margin
2026-05-12 Contrastive Learning 用「相關 vs 不相關」成對 / 三元組樣本訓練 embedding 的方法、現代 embedding model 的核心訓練 paradigm
2026-05-12 Cross-Entropy 衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss
2026-05-12 Dot Product 兩個向量對應位置相乘再加總、attention score 跟相似度判讀的基礎
2026-05-12 DPO（Direct Preference Optimization） RLHF 的簡化替代：跳過 reward model、直接從人類偏好資料 fine-tune LLM
2026-05-12 Embedding Layer Transformer 第一層的查表結構、把整數 token ID 轉成可運算的向量
2026-05-12 Entropy 資訊論衡量「分佈的不確定性」的指標、cross-entropy / KL divergence 的基底
2026-05-12 FFN（Feed-Forward Network） Transformer block 內部的兩層 linear + activation、佔模型參數量的多數
2026-05-12 Flash Attention Attention 計算的記憶體友善實作、減少 GPU memory 讀寫、提升長 context 推論吞吐
2026-05-12 Floating Point（FP32 / FP16 / BF16） fp32 / fp16 / bf16 浮點格式的位元結構與 LLM 訓練 / 推論的精度取捨
2026-05-12 Forward Pass input 經過所有 layer 的計算、得到 output 的單向流程；推論跟訓練都會跑、訓練多一個反向階段
2026-05-12 GPU Compute Backend GPU 加速計算的底層 API 介面（CUDA / ROCm / Vulkan / Metal / SYCL）、決定推論軟體能否用 GPU 跑得快
2026-05-12 Gradient loss function 對權重的偏微分向量、指出「該往哪個方向調權重才能讓 loss 下降最快」
2026-05-12 Gradient Explosion / Vanishing 深層網路訓練中 gradient 透過 chain rule 累乘、容易爆炸或衰減到 0 的兩種失敗模式
2026-05-12 Hallucination LLM 生成內容看起來合理但事實錯誤、引用不存在的來源、虛構不存在的 entity 的現象
2026-05-12 Hands-on：安裝 ComfyUI + SDXL base git clone、venv、pip install requirements、SDXL safetensors 放哪、--listen 啟動 server、瀏覽器 workflow 驗證
2026-05-12 Homebrew macOS 上社群維護的套件管理器、用一行指令安裝 CLI 工具與背景服務
2026-05-12 Hybrid Search 把字面 retrieval（BM25）跟語意 retrieval（embedding）的結果用 RRF 等方法合併、補單一路線的盲點
2026-05-12 Image Token VLM 把圖片轉成「對 Transformer 而言跟 text token 同質」的向量、計入 context window 預算
2026-05-12 KL Divergence 衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束
2026-05-12 launchd Service macOS 原生的服務管理機制、把 process 註冊成自動啟動的 daemon 或 agent
2026-05-12 Layer Normalization 在每個 token 的 hidden state 上做正規化（減 mean、除 std）、穩定深層網路訓練
2026-05-12 Learning Rate gradient descent 每步更新權重的幅度、訓練中最敏感的 hyperparameter
2026-05-12 LLM Benchmarks（MMLU / HumanEval / SWE-bench 等） LLM 能力評估的標準 benchmark 集合：MMLU / HumanEval / MBPP / SWE-bench / MT-Bench 等的覆蓋範圍與失效情境
2026-05-12 LLM Tracing 把 LLM 應用的每次 LLM call / tool call / memory op 編成結構化 span、用 OpenTelemetry GenAI semantic conventions 標準化
2026-05-12 LLM-as-Judge 用 LLM 評估另一個 LLM 的輸出品質、production eval 的主流方法、500-5000× 成本降但有 bias 要處理
2026-05-12 Logit softmax 之前的原始實數分數、每個 vocab token 一個值、可正可負
2026-05-12 LoRA Low-Rank Adaptation：凍住原模型權重、只訓兩個小矩陣的 parameter-efficient fine-tuning
2026-05-12 Loss Function 把「模型預測」跟「正確答案」的差距量化成一個純量、訓練的最佳化目標
2026-05-12 Lost in the Middle LLM 對 long context 中段內容的 attention / recall 顯著低於開頭與結尾的現象
2026-05-12 Matrix Multiplication LLM 推論最頻繁的單一運算、forward pass 每層的核心、memory bandwidth 瓶頸的根源
2026-05-12 Mixture of Experts (MoE) 把 transformer 的 FFN 層拆成多個專家、每 token 只啟用少數、總參數大但每 token 計算量小的架構
2026-05-12 Model Card Hugging Face 等平台上模型的 metadata 文件、列出模型來源、訓練資料、能力、限制、授權
2026-05-12 Model Tag Ollama 等推論伺服器用來定位特定模型版本的命名規則
2026-05-12 MoE CPU 卸載把 Mixture-of-Experts 模型不活躍的專家層權重放在系統 RAM、用到再走 PCIe 拉回 GPU、讓有限 VRAM 跑得了更大模型
2026-05-12 MTEB Massive Text Embedding Benchmark：8 大類 56 任務、評估 embedding model 跨任務通用能力的標準
2026-05-12 Multi-Head Attention 把 attention 切成多個 head 並行計算、讓模型能同時注意多種模式
2026-05-12 Multimodal Fusion VLM 把 vision encoder 跟 LLM 結合的方式：early fusion / cross-attention / native multimodal 三條路線
2026-05-12 Needle in a Haystack 把一個事實藏在 long context 不同位置、測試 LLM 能否抓出來的 benchmark 方法
2026-05-12 NVLink NVIDIA 多 GPU 之間的高速互連介面、提供比 PCIe 更高的卡間頻寬、消費級 RTX 系列普遍不支援
2026-05-12 OWASP LLM Top 10 LLM 應用最常見 10 大資安風險的業界共同詞彙、跟模組六本地 dev 視角的 mapping 表
2026-05-12 PCIe PC 上連接 GPU 跟主機板的高速序列匯流排、影響模型載入速度跟 MoE 卸載時的推論吞吐
2026-05-12 Perplexity cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」
2026-05-12 Port 與 Localhost TCP port 與 listen address 如何決定 API server 的對外暴露範圍
2026-05-12 Pre-training LLM 訓練的第一階段：用 trillion-token 級網路文字做 next-token prediction、得到 base model
2026-05-12 Prefix Cache 把多個請求共用的前綴 prompt 的 KV cache 重用、省下重複 prefill 算力的優化、production 多用戶服務的常見設計
2026-05-12 Prompt Cache 重複出現的 prompt prefix 在推論伺服器或 LLM 服務端被 cache、後續 query 跳過 prefill、大幅降 cost 跟 TTFT
2026-05-12 Prompt Injection 把惡意指令藏進 LLM 會讀到的內容、誘導 LLM 跑出非開發者預期行為的攻擊類別、OWASP LLM01 列入頭號威脅
2026-05-12 QLoRA 把 base model 量化到 4-bit + LoRA fine-tune 的組合、消費級 GPU 也能 fine-tune 大模型
2026-05-12 Reasoning Model 訓練成自然輸出長 reasoning trace 的 LLM 變體、o1 / DeepSeek-R1 / Claude thinking 為代表
2026-05-12 Refusal Rate LLM 拒絕回答 prompt 的比例、是 production LLM 服務偵測對齊強度跟異常行為的常用訊號
2026-05-12 Reranker 對 retrieval top-K 結果用 cross-encoder 重新排序的 RAG 第二階段、品質提升顯著但 latency / cost 增加
2026-05-12 Residual Connection 把 layer 的輸入直接加到輸出上的「跳接」、讓深層網路的梯度能穩定回流
2026-05-12 RLHF Reinforcement Learning from Human Feedback：用人類偏好訓練的 reward model 透過 RL 對齊 LLM
2026-05-12 RoPE（Rotary Position Embedding）用旋轉矩陣把位置資訊直接旋轉進 Q/K 向量、現代 LLM 主流的位置編碼方式
2026-05-12 Sandbox 把程式跑在受限制環境的隔離技術、限制檔案 / 網路 / 系統呼叫權限、是 tool use 跟 MCP server 副作用控制的基礎
2026-05-12 Scaffold vs Harness Coding agent 的兩個工程層次：scaffold 是建構時靜態結構、harness 是 runtime 的 tool dispatch + context management + safety
2026-05-12 Self-Attention Q / K / V 都從同一個 sequence 投影出來的 attention、Transformer 的標誌性設計
2026-05-12 SentencePiece Google 開源的多語言 tokenization 框架、支援 BPE 跟 unigram 演算法、處理空白統一
2026-05-12 SFT（Supervised Fine-Tuning）在 base model 上用「指令-回答」對資料微調、讓模型會跟著指令走
2026-05-12 SGD Stochastic Gradient Descent：每次用 mini-batch 算 gradient 更新權重的基礎 optimizer
2026-05-12 Shell 背景 Process 終端機 process 的前景 / 背景生命週期、訊號控制、找出佔用 port 的 process
2026-05-12 Softmax 把任意實數向量正規化成「總和為 1、每個分量 ∈ [0,1]」的機率分佈
2026-05-12 Special Tokens 在 vocab 中保留給特殊用途的 token：sequence 邊界、角色標記、padding、tool call 等
2026-05-12 Subagent Coding agent 中把特定責任拆給專門子 agent 的設計模式、各 subagent 有獨立 context、由 main agent 透過 handoff 調度
2026-05-12 System Prompt LLM application 中由開發者預設、不直接顯示給使用者的指令層、定義模型的角色、行為規範、輸出格式
2026-05-12 Tensor 多維陣列、矩陣是 2D 特例、PyTorch / MLX / JAX 等 framework 的核心型別
2026-05-12 Test-Time Compute 推論時動態增加計算量換取答案品質的 paradigm、reasoning model 跟 best-of-N 的共同基底
2026-05-12 Tool Use LLM 透過結構化呼叫外部工具（讀檔、查資料庫、發 API request）來擴展能力的設計、function calling 跟 MCP 是常見實作
2026-05-12 Top-K / Top-P / Min-P Sampling 從機率分佈取樣前先過濾低機率 token 的三種策略、現代 LLM 推論主流
2026-05-12 Vector Database 為高維向量 (embedding) 設計的儲存 + 近似最近鄰 (ANN) 檢索系統：RAG 從 prototype 跨到 production 的關鍵元件
2026-05-12 Vector Norm 衡量向量大小的純量值、L1 / L2 / L∞ 各有用途、cosine similarity 的基礎
2026-05-12 Vision Encoder VLM 內部負責把圖片轉成可進 Transformer 的向量序列的模組、ViT / CLIP encoder 為主流
2026-05-12 VLM（Vision-Language Model）同時吃圖片 + 文字輸入、產生文字輸出的 LLM 變體、coding 工作流中處理截圖 / 設計稿 / UI debug 的基底
2026-05-12 Vocabulary Size tokenizer 詞彙表的 token 總數、影響 embedding 大小、tokenization 粒度、多語言友善度
2026-05-12 VRAM 顯卡上的記憶體、跟系統 RAM 是兩塊獨立預算、決定能載入多大模型權重跟 KV cache
2026-05-11 0.1 為什麼 LLM 生字慢自回歸架構與記憶體頻寬瓶頸：為何即使 Mac 算力很強，本地 LLM 仍一個字一個字吐
2026-05-11 1.1 LM Studio：GUI 探索模型 GUI 取向的本地推論伺服器：內建模型瀏覽器、speculative decoding 設定面板、適合探索新模型
2026-05-11 2.1 機率與資訊論 LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色
2026-05-11 3.1 Embedding 空間 token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的
2026-05-11 4.1 RAG 原理：retrieval + augmentation 模式為什麼模型需要外掛知識、語意相似 vs 字面相似、chunking 的本質取捨、retrieval 失敗的根本原因
2026-05-11 Autoregressive LLM 一次生成一個 token、把已生成內容作為下一次輸入的架構
2026-05-11 Base Model 未經指令微調的原始模型：擅長文字接龍、適合下游微調用途
2026-05-11 Context Window 模型一次能處理的最大 token 數量：prompt 加生成的總和上限
2026-05-11 Diffusion 產圖用的生成式 AI 架構：跟寫 code 用的 Transformer 是不同路線
2026-05-11 Drafter Model speculative decoding 中用來快速猜未來 token 的小模型
2026-05-11 Embedding Model 把文字轉成向量的模型：用於 codebase 索引與語意搜尋
2026-05-11 Function Calling 模型訓練階段建立的「呼叫工具」能力：知道何時該呼叫、傳什麼參數
2026-05-11 GGUF llama.cpp 生態定義的模型權重格式：把權重、tokenizer、metadata 打包成單一檔案
2026-05-11 Inference Server 載入模型權重、處理 prompt、產生 token 的常駐 process
2026-05-11 Instruction-Tuned Model 經過指令微調的模型：會跟著 prompt 走、回答使用者問題
2026-05-11 KV Cache 已處理 token 的 attention 中間結果暫存：避免重算、加速後續生成
2026-05-11 LLM Agent 把控制流交給 LLM 的應用模式：自主決策、跨多步呼叫工具、人類角色從主導變監督
2026-05-11 MCP（Model Context Protocol） LLM application ↔ 外部 tool server 之間的標準化協議、複用 OpenAI 相容 API 的成功模式
2026-05-11 Memory Bandwidth 記憶體每秒能讀寫多少 bytes：決定本地 LLM 生字速度的真正瓶頸
2026-05-11 MLX Apple 釋出的 Apple Silicon 數值運算 framework：類似 PyTorch / JAX 的 Mac 對應物
2026-05-11 Multi-Token Prediction (MTP) Google 為 Gemma 系列釋出的 speculative decoding 工程化實作
2026-05-11 OpenAI 相容 API 本地推論伺服器跟雲端 OpenAI 共用的 API 形狀標準
2026-05-11 Prefill Prompt 首次處理時的計算階段：把整段輸入跑過模型、產生 KV cache
2026-05-11 Quantization 用較少 bits 表示模型權重：壓縮記憶體佔用、加快生字速度，代價是少量品質衰減
2026-05-11 RAG Retrieval-Augmented Generation：動態外掛知識給 LLM、繞開模型參數記憶的靜態限制
2026-05-11 Speculative Decoding 用小模型猜未來 token、大模型並行驗證的加速技巧
2026-05-11 SWE-bench 用真實 GitHub issue 量化 LLM coding 能力的 benchmark
2026-05-11 Token LLM 處理文字時的最小單位：介於字元與單字之間
2026-05-11 Tokens Per Second LLM 每秒能生成幾個 token：生字速度的標準量化指標
2026-05-11 Transformer 寫 code 用的 LLM 神經網路架構：基於 attention 機制、自回歸生成 token
2026-05-11 TTFT Time To First Token：送出 prompt 到第一個 token 出現的等待時間
2026-05-11 Unified Memory Architecture Apple Silicon 讓 CPU / GPU / NE 共用同一塊記憶體：跑大模型的優勢來源
2026-07-01 Case Study：Blog 語意搜尋從 pickle 到 production 為 CLI 或個人工具選 RAG storage backend、或原始選型理由被 benchmark 推翻但結論不變時，如何區分結論、理由與前提
2026-05-14 4.2 RAG 檢索增強：query rewriting / HyDE / multi-step / context packing Query 端增強（rewriting / expansion / HyDE）、multi-step iterative retrieval、retrieve 後的 context packing（dedup / ordering / summarization）、adaptive retrieval：vanilla RAG 不夠時的下一層工具箱
2026-05-12 5.1 MoE 模型與 CPU 卸載策略 PC 場景把 MoE 不活躍專家層留在系統 RAM 的判讀：何時值得卸載、卸幾層、對 prefill 跟生成的影響各自不同
2026-05-12 6.1 推論伺服器的綁定與暴露範圍個人 dev 場景下 llama-server / Ollama / LM Studio 的 bind address 判讀：127.0.0.1 vs LAN vs 反代、預設安全、誤開放給內網的後果
2026-05-12 Hands-on：安裝 whisper.cpp 做語音轉文字 brew install whisper-cpp、下載 GGML model、Metal 加速、ffmpeg 餵 WAV、484ms 完成 7 秒音訊轉錄
2026-05-11 0.2 介面 / 伺服器 / 模型三層架構把任何本地 LLM 工具放回正確的層級，用三層心智模型看懂工具關係
2026-05-11 1.2 llama.cpp：底層推論引擎 GGUF 格式、量化、MTP 仍 beta；多數讀者不需要直接接觸，Ollama 已經包好
2026-05-11 2.2 微積分與最佳化從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數
2026-05-11 3.2 Attention 機制 Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算
2026-05-12 5.2 KV cache 量化策略 PC 場景用 K=Q8 / V=Q4 等量化把 KV cache 壓縮、騰出 VRAM 開大 context window 或加併發數的判讀
2026-05-12 6.2 tool use 與 MCP server 的權限模型個人 dev 場景下 tool use / MCP server 的副作用權限：檔案系統 / shell / 網路存取邊界、第三方 MCP 信任、副作用的可逆性
2026-05-12 Hands-on：安裝 Piper TTS 做文字轉語音 pip install piper-tts、ONNX voice model、stdin 餵文字、WAV 輸出、跟 Whisper 互為 round-trip 驗證
2026-05-11 0.3 OpenAI 相容 API 為什麼幾乎所有本地 LLM 工具不用改就能切到本地：背後是同一套 API 形狀
2026-05-11 1.3 VS Code + Continue.dev 整合安裝 Continue 擴充套件、config.json 設定、Cmd+L 對話 / Cmd+I 行內編輯快捷鍵
2026-05-11 2.3 數值精度與量化的數學依據 fp32 / bf16 / fp16 / int8 / int4 的差別、量化能省哪些 bits、品質衰減從哪裡來
2026-05-11 3.3 Transformer 架構細節 Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream
2026-05-11 4.3 Tool use 原理：LLM 跟外部世界互動 Structured output 是 LLM 跨入工程系統的橋、function calling 取捨、為什麼本地小模型 tool use 表現崩潰
2026-05-12 5.3 llama.cpp 在 PC 上 CUDA / ROCm build 取得、核心旗標地圖、llama-bench 校準、多卡 tensor split 的入門設定
2026-05-12 6.3 IDE 場景的 prompt injection 個人 dev 場景下 IDE 寫 code 工作流的 prompt injection：codebase 內容、外部文件、剪貼簿作為攻擊面、跟雲端 LLM 場景的差異
2026-05-12 Hands-on：用 blog content 當 corpus 跑 RAG 200 行 Python：embedding + cosine retrieval + Ollama chat、validating 4.0 RAG 原理
2026-05-11 0.4 MLX / MTP / oMLX 的區別三個常被混為一談的術語：framework、加速技巧、特化 server，疊加而非互斥
2026-05-11 1.4 寫 code 場景的模型選型優先順序 Gemma 4 31B MTP → Qwen3-Coder 30B → Qwen3 14B → gpt-oss 20B 的取捨與適用情境
2026-05-11 2.4 想學更深：推薦公開課程 MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線
2026-05-11 3.4 訓練流程：pre-train → SFT → RLHF LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案
2026-05-11 4.4 Agent 架構原理 Agent loop 結構、失敗模式、什麼任務適合 vs 不適合、跟人類審查的協作模型
2026-05-14 4.5 人機協作拓樸：何時人介入、怎麼介入 Centaur vs Cyborg 工作模式、jagged frontier、HITL 三種觸發時機（pre-act / mid-stream / post-hoc）、確認流程的設計避免橡皮圖章化
2026-05-12 5.4 LM Studio 在 Windows Windows + 獨立 GPU 場景用 LM Studio：CUDA / ROCm backend 選擇、GUI 內對應 -ngl / cache-type / cpu-moe 的設定位置
2026-05-12 6.4 跨雲端 / 本地的資料邊界個人 dev 場景下混用雲端 LLM 跟本地 LLM 時的 prompt 洩漏點：Continue.dev 多 provider 設定、隱私資料流、按敏感度分流的判讀
2026-05-12 Hands-on：用 blog content 寫一個最小 MCP server stdio JSON-RPC、stdlib-only Python、暴露 blog content 給 LLM 用、validating 4.3 應用層協議
2026-05-11 0.5 Apple Silicon 記憶體預算記憶體決定能跑什麼，Q4 量化下的可運作模型對照與系統保留
2026-05-11 1.5 期望管理：本地 LLM 的擅長領域與分工本地 LLM 是免費的初階 pair programmer：辨識它的擅長領域、跟雲端旗艦做結構性分工
2026-05-11 3.5 Sampling 與 Decoding 策略 Greedy、beam search、top-k、top-p、temperature、min-p：模型輸出後怎麼挑下一個 token
2026-05-12 5.5 PC 場景的模型選型優先順序 PC 獨立 GPU 場景下、MoE 卸載讓「全載小模型 vs 卸載大 MoE」變成主要的選型軸；對應不同 VRAM 容量的模型推薦
2026-05-12 6.5 跨進 production 的 routing 中樞個人 dev → 團隊 → production LLM 服務的三層演化、跟 backend/07 對應卡片的 routing 清單
2026-05-12 Hands-on：Ollama 改檔案 / 寫程式碼的權限邊界在哪四組對照實驗：Ollama 自己沒 FS / shell 權限、wrapper 才有；--dry-run / --confirm / --auto 三檔審查粒度的取捨
2026-05-11 0.6 判讀本地 LLM 資訊的五個框架本地 LLM 資訊更新快，學會用版本、層級、變數、能力、資料流五個框架評估文章與宣稱
2026-05-11 1.6 延伸方向：Web UI、coding agent、產圖日常路徑跑穩後可以玩的延伸：Open WebUI、aider、ComfyUI；先把基底跑穩再進階
2026-05-11 3.6 Tokenization：BPE、SentencePiece、Tiktoken 把文字切成 token 的算法：為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響
2026-05-11 4.6 應用層協議：function calling / structured output / MCP 三個常被混為一談的概念：模型能力、sampling 約束、server 協議，三者的層級差異與組合方式
2026-05-12 5.6 GPU 廠商差異 NVIDIA CUDA、AMD ROCm、Intel ARC 在 llama.cpp 生態的相對位置、選卡時的判讀軸
2026-05-12 6.6 OWASP LLM Top 10 對照圖把模組六的本地 dev 視角安全章節對照到 OWASP LLM Top 10 2025、補出個人 dev 場景跟企業合規溝通的共同詞彙
2026-05-12 Hands-on：用 QLoRA 在本機 fine-tune coding 模型 Apple Silicon Mac / PC 獨立 GPU 上跑 QLoRA fine-tune 的完整流程：環境、資料、訓練、evaluation、合併、部署到 Ollama
2026-05-12 Hands-on：跨資料夾風格 follow 任務的模型對比 1B / 4B / 8B / 跨代 4B 在「讀風格參考、follow 既有格式、寫新章節」任務上的 structural metrics 對比、揭示 model size 不是唯一因素
2026-05-11 0.7 隱私 / 資安的資料流原理從「位置」到「資料流」的思考升級：信任邊界、合約模型、零信任原則套用到 LLM 工作流
2026-05-11 1.7 排錯方法論：用三層架構做故障定位故障定位的分層思考、症狀到層級的對應反射、log 在三層的角色差異、最小可重現的縮減策略
2026-05-11 3.7 跨語言場景的 tokenizer 與訓練分佈原理為什麼模型對不同語言表現不一致：tokenizer + 訓練資料分佈雙因素、語言選擇取捨
2026-05-11 4.7 Workflow 編排模式 Pipeline / router / parallel / reflection：多 LLM call 組合的四種基本模式與退化條件
2026-05-14 0.8 Deterministic vs Fuzzy Engineering：軟體設計典範的位移傳統 deterministic 軟體跟 fuzzy LLM 軟體在資料、邏輯、分解、實驗成本四個維度的根本差異、以及哪段該 deterministic、哪段該 fuzzy 的決策框架
2026-05-14 4.8 Multi-Agent 拓樸：flat / hierarchical / agent-as-tool 從 multi-call workflow 走到 multi-agent system 的判讀、flat vs hierarchical 拓樸、agent-as-tool 的 MCP 視角、specialization 跟 orchestration overhead 的取捨
2026-05-12 3.8 Reasoning models：test-time compute paradigm Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務
2026-05-12 Hands-on：LLM 運行中 + 結束的資源管理 RAM / 磁碟 / port 三個 dimension 的觀察跟釋放、Ollama keep_alive 跟 ComfyUI 兩種 lifecycle 對比、實測釋放數字
2026-05-12 Hands-on：用本地 LLM 跑 judge harness（最小可行版）在 Ollama / LM Studio 上跑 local reasoning model 當 judge、對自己工作流案例做 eval、JSONL in / JSONL out 最小 harness
2026-05-12 3.9 Speculative decoding 內部：drafter / 驗證 / 加速上限 speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體
2026-05-12 4.9 Production 部署的資源評估原理從本地單 user 到 production multi-tenant：concurrent users、cost model、observability、SLA、capacity planning 的設計取捨
2026-05-12 Hands-on：RAG / MCP 的資源 footprint RAG ingest / query / MCP server 三階段的 RAM / 磁碟 / process 實測、多模型並存的 RAM 衝突、本地 LLM 跑 RAG 跟單純 chat 的差異
2026-05-12 3.10 Constrained decoding 內部：grammar mask 跟性能取捨 Constrained decoding 的內部運作：token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速
2026-05-12 4.10 衍生產物管理原理：什麼進 git、什麼不該 LLM 應用的 source / derived / external 三類產物對應 git / build cache / registry、與 production 部署的 reproducibility / cost / share 取捨
2026-05-12 4.11 Long context engineering 128K / 1M context 模型怎麼用：claimed vs effective context、lost-in-the-middle、context 設計策略、Long context vs RAG 取捨
2026-05-11 3.11 想學更深：推薦公開課程 Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線
2026-05-12 4.12 Embedding model 內部：訓練、選型、in-domain fine-tune Embedding model 怎麼訓練（contrastive learning + hard negative mining）、怎麼挑（MTEB / 大小 / domain）、何時該自己 fine-tune
2026-05-14 4.13 Eval 設計座標系：三軸、八象限、何時測什麼 Eval 設計三軸（objective↔subjective / component↔end-to-end / quantitative↔qualitative）、八象限的對應 eval 工具、軸選錯的訊號、跟 benchmarking / LLM-as-judge / tracing 的關係
2026-05-12 4.14 Benchmarking 與評估方法論判讀 model card benchmark 數字、做自己工作流的 in-house benchmark、量測本地推論速度的完整方法論
2026-05-12 4.15 Vision in coding workflow：本地 VLM 怎麼接寫 code VLM 在 coding 工作流的 use cases、本地 VLM 選型、跟雲端 VLM 的分工、Continue.dev / Ollama 整合現狀
2026-05-12 4.16 靜態 / serverless RAG deployment：架構選擇與資安取捨沒 backend 的場景怎麼做 RAG：四種 deployment 方案、API key 暴露問題、CORS / abuse / 第三方信任、跟模組六的 routing
2026-05-12 4.17 Coding agent harness：scaffold / context engineering / subagent Coding agent 的內部設計：scaffold vs harness 分層、context budget 25% 規則、subagent 拓樸、跟 Claude Code / Cursor / Aider 的 mapping
2026-05-12 4.18 Prompt caching 工程實務：cost / latency 最大槓桿 Prompt cache 怎麼運作、cache_control 設計、coding agent 跟 long-context 的 cache pattern、anti-pattern 跟 cache miss 訊號
2026-05-12 4.19 Agent memory 分層架構 Agent 在 context window 之外管理長期狀態的設計：working / short-term / long-term episodic / semantic / procedural 五個層次、寫入時機、retrieval 設計、失敗模式
2026-05-12 4.20 LLM tracing 與 observability OpenTelemetry GenAI semantic conventions、結構化 span 設計、cost / latency 監控、failure debug 流程、跟 LLM-as-judge eval 的串接
2026-05-12 4.21 LLM-as-Judge 評估方法 LLM 評估 LLM 的 production eval 方法：rubric design、pairwise / direct scoring、三大 bias 緩解、跟 trace 串接的閉環、calibration
2026-07-01 4.22 RAG storage 工程：從 pickle 到 vector database 的選型判讀 RAG storage backend 選型：規模到哪個階段該從 in-memory 升級到 vector DB、dependency chain 如何收窄選項
2026-05-12 LLM Deployment 供應鏈完整性把 LLM 模型權重、推論伺服器、第三方 plugin 三條 production 供應鏈納入既有 artifact trust 框架的判讀
2026-05-12 LLM 多租戶推論隔離 production LLM 服務的多租戶隔離：KV cache 不共享、log / model artifact 隔離、跨用戶 prompt 洩漏面
2026-05-12 LLM Agent Prompt Injection 後果治理 production LLM agent 場景的 prompt injection 後果：tool spec 設計、agent loop 限制、review checkpoint、跟 incident workflow 的接合
2026-05-12 LLM Log 與 PII 治理 production LLM 服務的 prompt log 累積、PII 偵測與過濾、保留期限與合規對齊
2026-05-12 LLM Service 偵測訊號覆蓋 production LLM 服務的 detection 訊號設計：tool call 異常模式、prompt injection 觸發徵兆、abuse 跟濫用模式、跟既有 detection-coverage 框架的接合
2026-05-14 4.0 Prompt 技術光譜：手法分類、取捨、組合模式 Zero-shot / few-shot、chain-of-thought、role / template、reflection 等 prompt 技術的分類與取捨、何時 stack 何時不要 stack、跟 fine-tune / RAG / chaining 的邊界
2026-05-12 Hands-on Quickstart：clone repo 後跑通所有 demo 4 步驟跑通 RAG / MCP / permission demo 的 setup 跟驗證指令、整合 hands-on 系列所有章節的 prerequisite
2026-05-11 0.0 本地 vs 雲端 LLM 從隱私、成本、速度、能力四個維度建立本地與雲端 LLM 的基本對照
2026-05-11 1.0 Ollama：主流推論伺服器一行 brew 裝完、ollama run 一鍵跑 Gemma 4 MTP、OpenAI 相容 API on localhost:11434
2026-05-11 2.0 線性代數：向量、矩陣、空間 LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色
2026-05-11 3.0 神經網路基礎從單一 neuron 到 multi-layer：weights、activation function、forward / backward pass 的角色
2026-05-11 Hands-on：安裝 Ollama + 拉第一個 Gemma 模型 brew install ollama、launchd service、ollama pull、curl 驗證 OpenAI 相容 API