❯ ls -la ~/blog
75 篇文章 · 11 個系列
- 日期標題
- 2026-05-09
自量化 huihui Gemma 4 26B-A4B abliterated 成 FP8 ship 上 HF。完整 n=1..4 sweep 後發現:abliterated body 跟 vanilla baseline 完全一樣快,n=1 上 MTP 加成也一樣;但 n=4 deep speculation 上 huihui 因為 per-position decay 陡(每 step 22pp)而被 vanilla 拉開兩倍。Tax 的真實樣貌是 conditional on num_speculative_tokens,不是固定百分比。
- 2026-05-06
Google 2026-05-05 發 Multi-Token Prediction drafter,vLLM PR 同日開、官方 preview docker 同日有。DGX Spark 上實測 Gemma 4 26B-A4B-it FP8 + MTP γ=4:單流 108 tok/s(2.66× baseline)、8 路並行 674 tok/s 總吞吐。一個沒寫進文件的雷:drafter 不能配 base model,要配 -it。
- 2026-05-05
sysprog21/zhtw-mcp 把繁中規則編譯成執行檔。掃 ai-muninn 全部 72 篇繁中文章三輪修了 128 處陸用詞,但真正的收穫不是修了多少 — 是發現我的盲點不是「不知道台灣怎麼說」,是「碰到陸用詞時預設不會主動懷疑」。
- 2026-05-04
DGX Spark GB10 上 Z-Image Turbo 6 種量化組合(BF16 / FP8 cast 標準 / FP8 cast fast / FP8 scaled Kijai / NVFP4 / NVFP4+FP8 encoder)實測。N=10 隔離 GPU 測,NVFP4 5.50s warm 比 BF16 7.55s 快 1.37×,FP8 三條 path 全比 BF16 慢。模型工作集 RSS 從 BF16 20.6 GB 降到 NVFP4+FP8 11.5 GB(省 44%)。
- 2026-05-04
Z-Image Turbo 量化版會不會崩品質?LPIPS(perceptual 距離 vs BF16)+ CLIPScore(image-text 對齊)雙軸跑 6 prompt × 4 config × 3 seed = 72 sample。結論:NVFP4 跟 BF16 圖長得不一樣,但這個 N=72 sample 沒測到任何量化 config 的 prompt fidelity regression — 4 個 config CLIPScore 都在 ±std 0.04 內,差距比 noise 小一個數量級。
- 2026-05-03
AI 一樣自信地給你對的答案跟編的答案,分不出來。三招 30 秒驗:具體事實 Google 一次、叫 AI 補連結點開看、換家問或開臨時聊天。
- 2026-05-01
三個主流 AI 各自有強項,選錯就是用錯工具。一句話分辨:第一次接觸選 ChatGPT、要寫長文選 Claude、用 Google 服務多選 Gemini。文末有對照表跟快速決策流程。
- 2026-05-01
十天前我說 NVFP4 在 DGX Spark 上是個坑、FP8 比較快。今天同一台機器跑 Nemotron 3 Nano W4A16 飆到 74.75 tok/s,連我自己之前的 FP8 hack 紀錄一起踩過去。這篇講 4 層 patch、quant variant 怎麼選、跟記憶體頻寬天花板的算法。
- 2026-05-01
同一台 DGX Spark,這次不拚速度,改拚「看完英文影片講給我聽」。3 分鐘 Karpathy 演講 89 秒處理完,5 萬 4 千 prompt token,逐字稿和畫面內容都對。記錄兩個踩過的雷:use_audio_in_video flag 放錯位置會幻覺音訊、b12x patch 過的 image 在 Omni 上會吐 NaN。
- 2026-04-30
ai-muninn 這個月 Vercel Edge Requests 用滿 1M/1M,免費額度被擋。原因不是流量,不是 bot,是 Next.js 預設讓 /public/* 回 must-revalidate,連 cache HIT 都算 edge request。修法只有 3 行 config,但本月扣掉的配額拿不回來。
- 2026-04-29
AI 第一句問得不好,後面追多少都是補洞。三個開場白:角色扮演、講清情境、講最終目標——任選一個用,AI 回答品質會明顯差很多。文末有 copy-paste prompt 範本。
- 2026-04-28
把 huihui-ai 的 Qwen3.6-35B-A3B abliterated BF16 量化成 FP8,部署到 DGX Spark GB10。從 4 次 OOM 到 1.68× over BF16 的完整旅程:UMA 物理上限、save_pretrained 的 50GB shard 陷阱、語言模型 prefix bug、MTP speculative decoding,以及為什麼第一個成功的版本根本沒做 FP8 cast。
- 2026-04-27
ChatGPT 第一次回答不夠好不要放棄。再追三句話:「澄清問題」、「補充情境」、「指定格式」——80% 場景用這個套路就解決。文末有可以直接抄的 prompt。
- 2026-04-27
打開 ChatGPT 不知道從哪開始?需求不是天生就知道,是被找出來的。從每週重複的事、最常 Google 的問題、一直拖的事、看不懂的東西、卡住的下一步,五個角度幫你挖出 AI 真正能幫你的場景。
- 2026-04-27
Qwen 3.6 35B-A3B 在 SWE-bench Lite 拿 48.33%(145/300),貼近 SWE-agent + Claude 3.7 Sonnet。但剩下的 155 題告訴你模型還差什麼:76% 是「找對檔案、改錯邏輯」。Gemma 4 26B 同一套 scaffold 拿 38.67% — 9.66% 落差大概率來自不同失敗類型的比例不同。
- 2026-04-26
把 huihui-ai 的 abliterated Qwen 3.6 35B 丟進 Part 21 同一套 TMMLU+ 測下去。總分從 75.07% 掉到 73.22%。代價分布不平均:規範性題目(信託 −7.7、行政法 −7.1)失血最重,純邏輯反而略好。台語也變更差——abliteration 解不了資料缺乏。
- 2026-04-25
同一台 DGX Spark、同一套 harness、同樣 22,690 題。Qwen 3.6 35B-A3B 拿到 75.07%,Gemma 4 26B-A4B 拿到 46.30%。Qwen 在 51 個子科目上一個都沒輸——連我原本以為 Gemma 會贏的台灣題目都沒贏。
- 2026-04-22
Part 19 證明 NVFP4 在 DGX Spark 上是陷阱。這篇直接動手:寫 Triton kernel 把 NVFP4 轉成 FP8,餵 FP8 tensor core。從 40.8 提升到 47.6 tok/s,附完整程式碼。
- 2026-04-21
NVFP4 理論上更快——位元更少、頻寬更省。但在 DGX Spark 的 GB10 (SM121) 上反而慢 32%。根因:缺硬體指令。vLLM 和 SGLang 雙引擎驗證。
- 2026-04-20
一套 scaffold(backticks + edit-tool + budget prompt),三個模型(Gemma 4 E4B、Gemma 4 26B、Qwen 3.6 35B),跑之間零程式碼改動。Qwen 3.6 拿到 48.33%——超越 SWE-agent + Claude 3.7 Sonnet。Scaffold 是固定成本,模型是變數。
- 2026-04-17
本地 AI 不是便宜版 ChatGPT。它是知識萃取器、私有程式碼助手、離線工具。月電費 NT$41 vs ChatGPT Plus NT$640 — 但便宜不等於好用。這篇教你什麼時候該用哪一種。
- 2026-04-17
Gemma 4 26B-A4B FP8 在 SWE-bench Lite 解了 116/300 題,全球排名 #16。跑在 DGX Spark 上,零 API 費。差距在 scaffold 設計,不是模型大小。
- 2026-04-16
AI 很強,但在 2026 年還是有四個地方會踩雷:幻覺、資料過時、記性不好、隱私外洩。寫這篇文章時我自己就被 Gemini 幻覺擺了兩次。
- 2026-04-15
在 GX10 用 mini-swe-agent + vLLM 跑 SWE-bench Lite 單題,從假成功的 doc 一路修到 Gemma 4 38 步乾淨 submit 正確 patch 的 scaffold engineering 紀錄。
- 2026-04-15
Q4_K_M 用 4 bit 怎麼裝得下 14B 模型?答案不是「切掉 75%」,而是 K-quant 的 super-block 分組、TurboQuant 的隨機旋轉、跟 QJL 的 1-bit sign sketch 三層演算法。一篇講清楚機制,但不推公式。
- 2026-04-14
AI 給你的第一個答案只是草稿。學會五種追問技巧 — 加限制條件、要比較、讓 AI 反問你 — 同一個問題的答案品質天差地遠。
- 2026-04-14
AI 聊到一半就忘記你說過的話?不是它壞了,是它的書桌滿了。這篇解釋什麼是 context window、為什麼對話太長會出問題、怎麼避開這個限制。
- 2026-04-13
你問 AI 的第一個問題不該是「幫我做 X」,而是「有沒有已經能做 X 的工具?」這篇教你怎麼用 AI 當研究助手 — 找工具、比較方案、確認它還活著。
- 2026-04-13
CLAUDE.md 和 MEMORY.md 會默默長大,直到每個 turn 吃掉 10K+ tokens。我做了一個 /slim skill 讓 Claude 自己診斷和修復膨脹 — 這是完整做法。
- 2026-04-13
剛開始用 Claude Code,context window 一直滿。這篇解釋 token 花去哪、哪些浪費了、怎麼讓 Claude 更精準地找資料而不是暴力讀檔。
- 2026-04-13
從密封箱到跑出第一個 LLM 的所有步驟。硬體檢查、Ollama 快速上手、vLLM 正式部署、模型選擇、5 個會浪費你整天的坑。
- 2026-04-13
Gemma 4 E2B / E4B / 26B MoE / 31B Dense 在 DGX Spark、RTX 5090、MacBook Pro 上的完整對照表。一張表看完速度、記憶體、量化格式。附選擇建議。
- 2026-04-13
可行性測試:開源模型能免費在本地跑 SWE-Bench 嗎?Gemma 4 26B 在 OpenHands 上失敗(40+ 錯誤),但在 SWE-agent 上 9 步修好測試 bug。同一個模型,差別在 action 格式。
- 2026-04-11
同一個 AI,同樣的問題,結果卻完全不同。覺得 ChatGPT 改變人生的人和覺得它沒用的人,其實在做兩件完全不同的事 — 差別只在一個心態轉換。
- 2026-04-10
大部分人不是不會用 AI,是不知道自己工作裡哪些事可以交給 AI。這篇教你用一個簡單的方法,讓 AI 幫你找出每天重複做卻沒意識到的事情。
- 2026-04-10
Gemma、Llama、Qwen、Mistral — 模型清單看得眼花撩亂。這篇用買車的邏輯教你怎麼從大小、速度、品質三個維度選到適合你的 AI 模型。
- 2026-04-10
Q4_K_M、Q8_0、FP16 — 同一個模型有十幾種版本,名字看起來像亂碼。這篇告訴你量化到底在做什麼、為什麼不會把模型搞壞、以及你該下載哪一個版本。
- 2026-04-09
AI 不是 Google,你不是在搜尋,你在對話。這篇教你打開 ChatGPT 之後該怎麼開口、五個立刻能試的任務、和回答不滿意時怎麼調整。
- 2026-04-09
ChatGPT、Claude、Gemini — 三個你現在就能用的 AI 助手。這篇用最白話的方式介紹它們各自的強項、價錢、和怎麼開始,幫你選到適合自己的那一個。
- 2026-04-08
Gemma 4 31B 在 MBP M1 Max 上用 Ollama 只有 1.5 tok/s(swap)。解法:降 context window(9 tok/s)或用 oMLX(12.8 tok/s)。真正的兇手是 KV cache 分配,不是模型大小。
- 2026-04-08
Gemma 4 E2B 到 31B 在 RTX 5090、M1 Max、DGX Spark、M4 上用 Ollama 完整測試。E2B 在 5090 上 310 tok/s。31B 在 MBP 上 1.5 tok/s — swap 殺死一切。記憶體容量 > 頻寬速度。
- 2026-04-08
Dense 是全員出動,MoE 是專家輪班,PLE 是每層樓有自己的櫃台,SSM 是速讀高手。用零技術門檻解釋四種主流 AI 模型架構的差別,幫你看懂規格表。
- 2026-04-07
Gemma 4 E2B 在 M1 Max 跑到 81 tok/s,比 E4B 快 44-82%。三台機器、相同方法論、每輪獨立 prompt,排除 Ollama 快取干擾後的真實數據。
- 2026-04-07
Gemma 4 E4B NVFP4A16 在 DGX Spark 上跑 49.9 tok/s — 比 BF16 快 2.6 倍。HuggingFace 上第一個 NVFP4 checkpoint。PLE 架構解析、FP8 vs NVFP4、以及差點讓我們放棄的 llm-compressor 版本地獄。
- 2026-04-07
Ollama 像微波爐,vLLM 像專業烤箱。兩個都能在你的電腦上跑 AI 模型,但適合的場景完全不同。這篇用零技術門檻的方式解釋差別、優缺點、和怎麼選。
- 2026-04-05
在 GB10 上用 vLLM 0.19 部署 Gemma 4 26B-A4B MoE NVFP4 — 52 tok/s decode、16.5 GB 模型、82 GB KV cache 可用。包含 Phase 0 決策過程和完整踩坑記錄。
- 2026-04-05
Gemma 4 31B-IT NVFP4 在 GB10 上只有 7.0 tok/s — 273 GB/s 頻寬是天花板。算術預測 4.4 tok/s,NVFP4 壓縮多了 60% 但逃不出牆。請選 MoE。
- 2026-04-05
同一個 Gemma 4 26B-A4B、同一張 GPU,vLLM NVFP4 跑 52 tok/s,Ollama Q4_K_M 只有 40。根因:Marlin kernel、CUDA graphs,以及 Ollama 靜默的 CPU/GPU split 陷阱。
- 2026-04-02
DGX Spark 的供電和過熱問題在 Carmack 批評後引爆社群。這篇整理三種不同症狀的診斷方法:30W PD controller 缺陷(需 RMA)、100W 功耗上限(散熱降頻)、5W driver bug(可修)。一個指令 30 秒確認。
- 2026-03-30
Google TurboQuant 在 GX10 (GB10/SM121) 上的實測數據 — 3-bit KV cache 壓縮的真實壓縮率、Qwen2.5-3B 精度驗證、以及 Qwen3.5-35B 的 hybrid attention 架構為什麼讓事情變得複雜。
- 2026-03-24
怎麼把 NemoClaw 的推理後端指向本地 Ollama 或 vLLM endpoint。Config 位置、模型替換,以及雲端消失後 OpenShell 仍然在做什麼。
- 2026-03-24
openclaw 2026.3.13 加入了 OpenAI OAuth 登入。一行指令讓你的 agent 用 ChatGPT Plus 訂閱取得 GPT-5.4 的 100 萬 token context,不需要另外買 API credits。
- 2026-03-23
NemoClaw 在 DGX Spark 上直接裝會失敗。這篇整理了 4 個官方文件沒提的修正(Node 升級、npm link、OpenShell tar.gz、cgroupns),30 分鐘跑起第一個 AI Agent。
- 2026-03-23
NemoClaw = OpenClaw + OpenShell + NVIDIA Agent Toolkit 三合一。這篇講清楚它解決什麼問題、架構怎麼運作、值不值得在 DGX Spark 上裝。
- 2026-03-21
用 claude -p subprocess 建 multi-agent orchestrator,發現中間 turn 全被靜默丟棄。SDK 遷移、session resume、並行執行、以及 setting_sources 的影響。
- 2026-03-21
vLLM serve script 加了 --kv-cache-dtype fp8,GB10 上輸出在約 500 token 後退化成重複字。根本原因:沒有 calibration data,q_scale 預設 1.0。
- 2026-03-21
openclaw 串接 gpt-oss-120B,第一條訊息就收到 400 max_tokens must be at least 1, got -1292。Context budget 的數學、config key 的坑、以及修法。
- 2026-03-21
把 editMessageText 輪詢換成 sendMessageDraft,實現真正的動態串流輸出。patch 方式、thinking block 過濾、以及私訊裡的 optional chaining 坑。
- 2026-03-19
Bot process 跑著、token 有效、訊息有收到。但沒有任何回應。四個錯誤假設、一張路由表,還有一個大多數人不知道的 Node.js 行為。
- 2026-03-19
怎麼讓 gpt-oss-120B 在 DGX Spark(GB10、SM121)上以 vLLM 跑到 60 tok/s。目標是讓 openclaw agent 用本地 120B 模型,零 API 費用。路上有六個坑,其中一個靜默失效的環境變數比其他五個加起來還難找。
- 2026-03-19
修完四個 SM121 NVFP4 bug 之後,Qwen3.5-122B 能跑、輸出正確。然後你看了速度:14 tok/s。沒有 flag 能修它。為什麼——以及在等什麼。
- 2026-03-18
怎麼在本地 agent loop 裡掛上 callhelp tool,讓它在推理途中 spawn Codex CLI。一個必設的 permission flag,還有為什麼 Claude quota 是我自己的。
- 2026-03-17
CUTLASS FP4 kernel 是針對 SM120(GB200)編譯的。在 SM121(GB10,DGX Spark)上它會靜默執行,但輸出垃圾。完整除錯過程——4 個 bug、row-identical 失敗特徵,以及有效的修正方案。
- 2026-03-16
為什麼我們停止讓 OpenClaw agent 直接編排多步驟任務,改成派生 Codex subprocess。這個模式讓 agent context 保持輕量、任務執行更可靠。
- 2026-03-13
在 ASUS GX10(SM121,128GB)上跑 NVIDIA Nemotron-3-Super-120B-NVFP4。四個 SM121 專屬坑、一個沒有任何作用的環境變數,以及最終可用的 docker 指令。
- 2026-03-07
128GB 統一記憶體的機器 vLLM 重啟時 OOM。原因:Ollama KEEP_ALIVE=2h 把 19-51GB 壓在 GPU 上。診斷指令、手動 unload 方式、以及為什麼要把 KEEP_ALIVE 改成 0。
- 2026-03-06
把 --enable-chunked-prefill 加到 Qwen3.5-35B(SSM+MoE hybrid)上,吞吐量從 47 tok/s 掉到 5.7 tok/s。解釋為什麼 SSM 遞迴架構和 chunked prefill 根本不相容。
- 2026-03-05
TTFT 從幾秒降到 0.12s。DGX Spark GB10 上 Qwen3.5-35B 從 Ollama 換到 vLLM 的實戰筆記,含六個坑:SSM + chunked prefill 陷阱、記憶體衝突、docker 重啟順序。
- 2026-03-05
完整的本地 AI Agent 架構:Mac Mini M4 當長駐 gateway,GX10 跑推理,Telegram 當介面。不需要訂閱,不需要雲端 API。六個部署心得。
- 2026-03-01
GLM-4.7-Flash 短 context 57.8 tok/s,但 8K 時掉到 42 tok/s。Qwen3.5-35B SSM hybrid:短 56 tok/s,8K 仍 56 tok/s。為什麼有長 system prompt 的 agent 應該在乎這個差距。
- 2026-02-26
一個 /debate 指令讓 Codex CLI 和 Gemini CLI 對同一份程式碼互相辯論。訓練資料不同、盲點不同——它們的分歧通常是最有用的輸出。
- 2026-02-26
把截圖導向的 iOS 測試改成 ui_describe_all 優先,BPS Tracker 測試的 context 用量從 81,290 KB 降到 15,215 KB。外加 Fastlane 整合:截圖、App Store 上傳全自動。
- 2026-02-25
花了好幾週每次改設定都重啟 gateway。後來才發現有 file watcher。哪些東西可以立即熱重載、哪些還是要重啟、還有怎麼區分 auth 失敗和短暫網路錯誤。
- 2026-02-19
設定檔裡標了 MANDATORY 的規則,同一個 session 裡被跳過了兩次。這篇解釋三個架構原因為什麼強調沒用,以及三個真正有效的系統設計解法。
- 2026-02-19
在 NVIDIA GB10(128GB 統一記憶體)上,用 7 個任務類別評測 8 個本地 LLM。量化的意外結論、一個連 JSON 都出錯的 120B 模型,以及把整個 token budget 用來思考的 thinking model。
showing 75 篇文章