~ /home/coolthor
ai-muninn
AI 基礎設施、LLM 部署與自主 Agent 的研究筆記。那些花了太長時間才搞懂的事,寫下來讓你不用重踩。
❯ whoami
在家跑各種本地模型 — LLM、生圖、生影片,然後把搞懂的東西寫下來
把模型量化成 FP8 / NVFP4 丟上 Hugging Face — 真的有人在跑
用 AI Agent 建造期權交易基礎設施
踩到的 spec-decode bug 自己修一修,進了 vLLM 的 speculators
偶爾也會上架 iOS App
❯ cat ~/blog/從這裡開始
從這裡開始
第一次來?從這幾篇入坑剛好
- 2026-06-04[Agent 入門 #1] AI 助理跟 ChatGPT 差在哪?一個回答你,一個用你的工具幫你做事
你平常用 ChatGPT 多半是問一句它答一句。自己養的 AI 助理(agent)則能用你自己的工具把事做完、跑在你這邊、接你天天在用的軟體。從 0 打造自己助理的第一課。
- 2026-06-05[Agent 入門 #4] Hermes Agent Desktop 桌面版安裝教學:手把手下載、裝好你的第一個 AI 助理
Hermes Agent Desktop(桌面版)下載 + 安裝教學。不用碰終端機:到官網下載桌面版、第一次打開自動裝好相依套件、用 ChatGPT 帳號登入,十幾分鐘就有一個你自己的 AI 助理在跑。
- 2026-06-12[地端 LLM #1] 第一次跑 Q2 就以為模型變笨了 —— 284B DeepSeek-V4-Flash 在 128GB 桌機,真兇是 parser 不認 DSML
DeepSeek-V4-Flash 是 284B 的 frontier 模型。我用 antirez 的 ds4 引擎 + 非對稱 Q2 在單台 GB10 跑起來,15.6 tok/s。本來以為 2-bit 量化讓它假裝呼叫工具,結果真兇是 runtime 沒接 DSML parser。
- 2026-06-11[Benchmark #2] Qwen3.5-122B 在 DGX Spark 加速 100%!
Qwen3.5-122B-A10B 在 128GB 的 DGX Spark 上,vLLM 怎麼調都卡在 17 tok/s 的 GDN 牆,連 merge 進去的加速 PR 都沒用。我換掉 vLLM、改用 Atlas 引擎跑同一顆解禁 NVFP4 權重,直接翻到 33.9 tok/s(開 MTP 36.5,約 2×)—— 加速 100%,解禁行為原封不動。真正的出口不在量化工具箱裡。
❯ cat ~/blog/概念
概念與方法 (Concepts)
給想理解 AI 怎麼運作的人
- 2026-06-24[Agent 進階 #15] 在手機上看你養的一群 AI 在做什麼:Muninn 加了看板
Hermes 有內建看板,但你在手機上只看得到 Telegram 的純文字。Muninn 這次直接把那塊看板搬上手機:Running / Blocked / Done 分欄、誰在跑什麼、哪張卡被擋下來,一眼看完。零後端、純 P2P。
- 2026-06-23[Agent 進階 #14] 出門也能跟家裡的助理說話:Muninn + iroh,5G 直連,不靠雲端
Hermes 裝好了,但出門就失聯——用 LINE 接太麻煩,沒有你自己的介面。Muninn 是專為 Hermes 設計的 iOS app:跟助理說一句話、手機掃 QR,5G 就能直連家裡,中間不經過任何第三方伺服器。
- 2026-06-22[Agent 進階 #13] 助理開始發瘋?先別怪它笨——八成是「車子」壞了,不是「引擎」壞了
AI 助理鬼打牆、亂跑、卡住、答非所問,你的第一反應通常是「這模型真笨」。但根據我自己一路 debug 的經驗,八成不是模型的問題,而是它外面那一圈(工具、設定、記憶)出了狀況。模型是引擎,外面那一圈是車子——車子開不動,常常不是引擎壞,是輪胎沒氣、油路堵了。
- 2026-06-20[Agent 進階 #12] 裝完之後然後呢?給你的助理一雙手——接上你自己的工具
助理裝好了,但它現在只會講話——只有一張嘴。這篇帶你給它一雙手:接上工具,讓它真的去查你的資料夾、跑你的指令、打你自己寫的小服務。重點概念叫 MCP,就是工具的『萬用插座』標準,插上去助理就會用。整套跑在你自己這邊、接的是你自己的東西。
- 2026-06-19[Agent 進階 #11] 把助理的腦換成你家機器上的:從雲端 ChatGPT 換成本地模型
前面我們用 ChatGPT 當助理的大腦。這篇做一件更狠的事——把那顆腦從雲端換成跑在你自己機器上的本地模型(例如 ds4)。賣點是「腦」這塊整套自主:推論不靠雲端、你跟它講的話不出門、不限額、全在你手上。代價也誠實講:本地腦通常較慢(ds4 實測約 10 tok/s),而且要一台夠力的機器。換腦不換身體,Hermes 這副身體完全不動。
❯ cat ~/blog/實戰
實戰紀錄 (Field Notes)
給在跑模型、踩過坑的人
- 2026-06-27[趣味競賽 進階 #6] 工具定義稅:還沒講話就先吃 17K token,而且每個 cache miss 都重算一次
我數了一下家裡那顆 agent 腦每次開口前的開銷:還沒讀我半個字,就先吃掉約 23K token,其中 17K 只是『工具的使用說明書』。更慘的是它跑的是 hybrid 模型,cache 一 miss 就把這 17K 從頭重算——一個 user 回合可能重算十幾次。這篇講一個被嚴重低估的成本:context 經濟學。解法不是砍工具,是像 skills 那樣『用到才載』。
- 2026-06-26[趣味競賽 進階 #5] 別讓助理每次都重讀整本對話:KV cache 存硬碟,回神快 7 倍
對話一長,每傳一句它都要把整段重讀一遍(re-prefill)才回你——重開、被擠掉快取後尤其痛。stock llama.cpp 沒內建把 KV cache 存硬碟(feature 被官方標 not planned),我用一支 60 行的 proxy 騙它做到:restore 比重算快 7×(5K 對話 9.9 秒→1.4 秒)。附:機制、proxy 設計、和為什麼我目前還沒上線它。
- 2026-06-25[趣味競賽 進階 #4] 量化 draft cache 反而更慢:Qwen MTP 投機解碼的反直覺實測(f16 比 q4 快 34%)
主 KV 我量化成 q4 省記憶體,很合理。那 MTP 的 draft cache 順手也量一下吧——它只是個小草稿,直覺穩賺。測下去打臉:q4 draft cache 29.6 tok/s,不量化的 f16 反而 39.7,還更省記憶體。draft cache 是少數「量化淨虧」的地方。附:量化為什麼會同時拉低速度、acceptance 跟省不到記憶體的三重損失。
- 2026-06-24[趣味競賽 進階 #3] 我把 context 開滿 256K,它載入成功——然後在真實對話裡 crash:一張 22G 改裝卡的 VRAM 偵探故事
模型卡片寫 n_ctx_train=262144。22G 的卡。27B 的 Q4 權重才 15.7GB。算盤一打:開滿 256K 啊,還剩好幾 GB。-c 262144 啟動,載入成功、沒報錯。跑幾輪對話就 503、服務自己重啟。日誌沒有漂亮的 out of memory,只有一行 0xc0000409。free VRAM 一看只剩 170 MiB——剩下的 GB 去哪了?這篇是把它查到底的偵探故事:我原本賴給 context checkpoint,讀了 llama.cpp 原始碼才發現它其實住系統 RAM、真正吃 VRAM 的是 KV cache;free-VRAM 對 context 是非線性的,而真正穩的甜蜜點不是 256K,是 128K。
- 2026-06-23[趣味競賽 進階 #2] 我把 100 tok/s 換成 30:快的 Gemma 12B 做完事就走人,慢的 Qwen 27B 才肯收尾
選本地模型我也是先看 tok/s。Gemma 12B 跑 90-100、爽到飛起,可是掛上 kanban 工作板,它做完內容就「結束」,從不回頭把卡標完成。換成慢三倍的 Qwen 27B,board 反而開始乖。這篇講一個反直覺的選擇:當腦要持續守一套程序,吞吐量根本不是該看的數字。附:連我查 log 都差點被 grep 騙。
❯ ls ~/blog/series
依系列瀏覽
每條主線,分組好了