技術筆記 — ai-muninn

❯

❯ ls -la ~/blog

120 篇文章 · 17 個系列

#dgx-spark (52)#gb10 (39)#vllm (39)#ai-agent (31)#gemma-4 (27)#benchmark (27)#nvfp4 (21)#入門 (19)#sm121 (18)#fp8 (16)#ai-助理 (15)#hermes (15)#chatgpt (15)#ollama (15)#ai (13)

日期閱讀標題
2026-06-282m
[LoRA] 角色 LoRA 控制盤:畫風、寫實、身分怎麼調
訓練好角色 LoRA 之後,怎麼精準控制畫風與身分?lightning 為什麼抹平風格、什麼時候用全步數、風格 LoRA 怎麼疊、為什麼光靠觸發字綁不住外觀——一篇講清楚每個旋鈕。
#lora #wan-2.2 #comfyui #ai-角色
2026-06-273m
[趣味競賽進階 #6] 工具定義稅:還沒開口,就先吃掉 17K token——而且每次重算都重來一遍
我數了一下家裡那個 AI 助理每次回話前的開銷:還沒開始處理我輸入的文字,就先吃掉約 23K token,其中 17K 只是『工具的使用說明書』。更慘的是它是 hybrid 模型,快取一沒命中就把這 17K 從頭重算——一個對話回合可能重算十幾次。這篇講一個被嚴重低估的成本:模型開口前的「打底開銷」。解法不是砍工具,是像技能那樣『用到才載』。
#本地-llm #ai-agent #context #llama.cpp
2026-06-263m
[趣味競賽進階 #5] 別讓助理每次都重讀整本對話:KV cache 存硬碟,回神快 7 倍
對話一長,每傳一句它都要把整段重讀一遍(re-prefill)才回你——重開、被擠掉快取後尤其痛。stock llama.cpp 沒內建把 KV cache 存硬碟(feature 被官方標 not planned),我用一支 60 行的 proxy 騙它做到:restore 比重算快 7×(5K 對話 9.9 秒→1.4 秒)。附:機制、proxy 設計、和為什麼我目前還沒上線它。
#本地-llm #llama.cpp #kv-cache #ttft
2026-06-255m
[趣味競賽進階 #4] 量化 draft cache 反而更慢:Qwen MTP 投機解碼的反直覺實測(f16 比 q4 快 34%)
主 KV 我量化成 q4 省記憶體,很合理。那 MTP 的 draft cache 順手也量一下吧——它只是個小草稿,直覺穩賺。測下去打臉:q4 draft cache 29.6 tok/s,不量化的 f16 反而 39.7,還更省記憶體。draft cache 是少數「量化淨虧」的地方。附:量化為什麼會同時拉低速度、acceptance 跟省不到記憶體的三重損失。
#mtp #投機解碼 #本地-llm #qwen3
2026-06-241m
[Agent 進階 #15] 在手機上看你養的一群 AI 在做什麼：Muninn 加了看板
Hermes 有內建看板，但你在手機上只看得到 Telegram 的純文字。Muninn 這次直接把那塊看板搬上手機：Running / Blocked / Done 分欄、誰在跑什麼、哪張卡被擋下來，一眼看完。零後端、純 P2P。
#ai-助理 #ai-agent #hermes #muninn
2026-06-246m
[趣味競賽進階 #3] 我把 context 開滿 256K,它載入成功——然後在真實對話裡 crash:一張 22G 改裝卡的 VRAM 偵探故事
模型卡片寫 n_ctx_train=262144。22G 的卡。27B 的 Q4 權重才 15.7GB。算盤一打:開滿 256K 啊,還剩好幾 GB。-c 262144 啟動,載入成功、沒報錯。跑幾輪對話就 503、服務自己重啟。日誌沒有漂亮的 out of memory,只有一行 0xc0000409。free VRAM 一看只剩 170 MiB——剩下的 GB 去哪了?這篇是把它查到底的偵探故事:我原本賴給 context checkpoint,讀了 llama.cpp 原始碼才發現它其實住系統 RAM、真正吃 VRAM 的是 KV cache;free-VRAM 對 context 是非線性的,而真正穩的甜蜜點不是 256K,是 128K。
#本地-llm #llama.cpp #qwen3 #vram
2026-06-232m
[Agent 進階 #14] 出門也能跟家裡的助理說話：Muninn + iroh，5G 直連，不靠雲端
Hermes 裝好了，但出門就失聯——用 LINE 接太麻煩，沒有你自己的介面。Muninn 是專為 Hermes 設計的 iOS app：跟助理說一句話、手機掃 QR，5G 就能直連家裡，中間不經過任何第三方伺服器。
#ai-助理 #ai-agent #hermes #iroh
2026-06-235m
[趣味競賽進階 #2] 我把 100 tok/s 換成 30:快的 Gemma 12B 做完事就走人,慢的 Qwen 27B 才肯收尾
選本地模型我也是先看 tok/s。Gemma 12B 跑 90-100、爽到飛起,可是掛上 kanban 工作板,它做完內容就「結束」,從不回頭把卡標完成。換成慢三倍的 Qwen 27B,board 反而開始乖。這篇講一個反直覺的選擇:當腦要持續守一套程序,吞吐量根本不是該看的數字。附:連我查 log 都差點被 grep 騙。
#本地-llm #ai-agent #qwen3 #gemma
2026-06-222m
[Agent 進階 #13] 助理開始發瘋？先別怪它笨——八成是「車子」壞了，不是「引擎」壞了
AI 助理鬼打牆、亂跑、卡住、答非所問，你的第一反應通常是「這模型真笨」。但根據我自己一路 debug 的經驗，八成不是模型的問題，而是它外面那一圈（工具、設定、記憶）出了狀況。模型是引擎，外面那一圈是車子——車子開不動，常常不是引擎壞，是輪胎沒氣、油路堵了。
#ai-助理 #ai-agent #hermes #除錯
2026-06-224m
[趣味競賽進階 #1] 老將漢升(GTX 970)退場,天水的麒麟兒(RTX 2080Ti 22G)登場:NT$11k 改裝卡養一顆 27B agent
GTX 970 那系列結尾我說「想在老卡上掛 agent,但 E2B 太小」。與其買新卡,我去二手市場撈了一張改裝 22G 的 2080 Ti——淘寶標價 ¥2079、到手含海運雜費約 NT$11,000——剛好夠把一顆常駐 27B 的 agent 腦養在家裡那台廉價老桌機上。這篇講用合理價錢挖到剛好夠用的好料的爽,跟它背後的工程。
#rtx-2080-ti #改裝顯卡 #本地-llm #ai-agent
2026-06-214m
在 abliterated DeepSeek-V4 上做 Directional Steering:同一把刀,疊起來會打架
ds4 引擎內建 directional steering — 推理當下推一個方向向量改變模型行為,數學上就是 abliteration 的連續可逆版。我在 GB10/CUDA 上跑通了(官方工具其實偏 Metal,但 CUDA 的 activation dump 也能觸發),抽了一條 verbosity 向量。結果:在 abliterated Q2 上 gradient 非單調、正向 scale 直接崩成標題碎片 —— 兩刀同源,疊起來互相打架。
#deepseek-v4 #directional-steering #activation-steering #abliteration
2026-06-202m
[Agent 進階 #12] 裝完之後然後呢？給你的助理一雙手——接上你自己的工具
助理裝好了，但它現在只會講話——只有一張嘴。這篇帶你給它一雙手：接上工具，讓它真的去查你的資料夾、跑你的指令、打你自己寫的小服務。重點概念叫 MCP，就是工具的『萬用插座』標準，插上去助理就會用。整套跑在你自己這邊、接的是你自己的東西。
#ai-助理 #ai-agent #hermes #mcp
2026-06-191m
[Agent 進階 #11] 把助理的腦換成你家機器上的：從雲端 ChatGPT 換成本地模型
前面我們用 ChatGPT 當助理的大腦。這篇做一件更狠的事——把那顆腦從雲端換成跑在你自己機器上的本地模型（例如 ds4）。賣點是「腦」這塊整套自主：推論不靠雲端、你跟它講的話不出門、不限額、全在你手上。代價也誠實講：本地腦通常較慢（ds4 實測約 10 tok/s），而且要一台夠力的機器。換腦不換身體，Hermes 這副身體完全不動。
#ai-助理 #ai-agent #hermes #本地模型
2026-06-182m
[LoRA] 在 RTX 5090 訓練自己的 AI 角色:一張圖到能跑的角色
用一張參考圖,在自己的 5090 上訓練一顆 Wan 2.2 角色 LoRA,之後純文字就能叫出同一個人——換衣服、換場景、換畫風、甚至生成影片,免付雲端費用。
#lora #wan-2.2 #rtx-5090 #ai-角色
2026-06-171m
[Agent 進階 #10] 一個人養一群助理：每個分身有自己的桌子、自己的腦、自己的記憶
一個助理用熟了，想再養第二、第三個？Hermes 讓每個分身有自己獨立的家（設定、記憶、個性），可以各跑不同模型、各管不同任務。這篇用白話講為什麼要分身、怎麼分，以及我實際養的那幾隻。誠實說：一般人一個就夠，這是想玩才需要的進階玩法。
#ai-助理 #ai-agent #hermes #多分身
2026-06-162m
[Agent 進階 #9] 讓你的 AI 助理看得到、聽得到：幫文字腦接上眼睛跟耳朵
你的 AI 助理只會讀文字？這篇教你幫它接上眼睛跟耳朵——丟一張圖它看得懂、傳一段語音它聽得懂。做法不是換更貴的大模型，是外掛一顆會看圖的小模型當感知小幫手。Hermes 原生 auxiliary.vision + 內建 faster-whisper，端到端實測。
#ai-助理 #ai-agent #hermes #多模態
2026-06-153m
[Agent 入門 #8] 不想搞 LINE？接 Telegram 其實更簡單
前面那套 LINE 要先開門（ngrok）、再去後台設 webhook，步驟不少。這篇給你更輕的選擇：Telegram。跟一個官方機器人對話就能建好你的 bot、拿到一把鑰匙，填進 Hermes 就通——不用對外網址、不用 webhook。
#ai-助理 #ai-agent #hermes #telegram
2026-06-145m
[趣味競賽] 用一張 GTX 970 架部落格 RAG 客服：不裝 torch、不用向量資料庫、不碰 LangChain
幫部落格做一個 RAG 客服 bot，跑在一張 2014 年的 GTX 970 加一個約 600MB 的 embedding 模型。embedding 走 llama.cpp 在 CPU 上跑、檢索用 numpy 暴力算 3,475 條 chunk、護欄靠嵌入分數閘、對外走 Cloudflare Tunnel。
#gemma-4 #gtx-970 #rag #llama.cpp
2026-06-144m
[趣味競賽] 在 GTX 970 上，Flash Attention 讓長 context 的 decode 接近翻倍（24.3 → 42.5 tok/s）
在沒有 tensor core 的 Maxwell GTX 970 上跑 Gemma 4 E2B，開 Flash Attention 讓長 context 的 decode 接近翻倍（24.3 → 42.5 tok/s），還省了約 430MB VRAM；而 q8 KV cache 幾乎沒省到記憶體、還拖慢 decode。一般的 KV cache 常識整個翻過來。
#gemma-4 #gtx-970 #flash-attention #kv-cache
2026-06-134m
[vLLM] DiffusionGemma 26B NVFP4 上 DGX Spark:158 tok/s,但 diffusion 的 tok/s 會騙你
DiffusionGemma 26B-A4B 用官方現成 image 就能在 128GB DGX Spark 上跑 vLLM,不用等 PR、不用 cherry-pick。NVFP4 單條 158 tok/s、四條同時 257。但單一個 tok/s 數字會騙人:diffusion 的速度取決於 256 token 的畫布有沒有填滿。
#dgx-spark #gb10 #diffusiongemma #diffusion-llm
2026-06-122m
[地端 LLM] 權重就是正義:284B 砍到 2-bit,還是比塞得下的小模型強
把 DeepSeek-V4-Flash(284B)壓到非對稱 Q2 才塞進 128GB 小盒子。聽起來像自殺式量化,但它只砍 routed experts、把高精度留在該留的層。實際當 agent 跑 280 輪零退化——權重夠大,2-bit 也壓不垮。
#dgx-spark #gb10 #deepseek-v4-flash #量化
2026-06-126m
[地端 LLM] 把 15 tok/s 的 284B 當每天的 agent 大腦:DeepSeek-V4-Flash 怎麼設才舒服
一顆 284B、只有 15 tok/s 的模型,要拿來當每天的 agent 大腦,得先做點準備才用得舒服。server 跟 agent 框架兩邊各一組設定:--no-mmap 冷啟砍到 57 秒、KV disk cache 省一半 prefill、context_length 沒設對整個 session 會炸。
#dgx-spark #gb10 #deepseek-v4-flash #kv-cache
2026-06-124m
[地端 LLM] 第一次跑 Q2 就以為模型變笨了 —— 284B DeepSeek-V4-Flash 在 128GB 桌機,真兇是 parser 不認 DSML
DeepSeek-V4-Flash 是 284B 的 frontier 模型。我用 antirez 的 ds4 引擎 + 非對稱 Q2 在單台 GB10 跑起來,15.6 tok/s。本來以為 2-bit 量化讓它假裝呼叫工具,結果真兇是 runtime 沒接 DSML parser。
#dgx-spark #gb10 #deepseek-v4-flash #ds4
2026-06-115m
[Benchmark] Qwen3.5-122B 在 DGX Spark 加速 100%!
Qwen3.5-122B-A10B 在 128GB 的 DGX Spark 上,vLLM 怎麼調都卡在 17 tok/s 的 GDN 牆,連 merge 進去的加速 PR 都沒用。我換掉 vLLM、改用 Atlas 引擎跑同一顆解禁 NVFP4 權重,直接翻到 33.9 tok/s(開 MTP 36.5,約 2×)—— 加速 100%,解禁行為原封不動。真正的出口不在量化工具箱裡。
#qwen3.5 #dgx-spark #gb10 #gdn
2026-06-094m
[趣味競賽] 把 GTX 970 變語音助手：Gemma 4 E2B 多模態 + Piper TTS，端到端 2.8 秒
一張 2014 年的 GTX 970 跑 Gemma 4 E2B（看圖 + 聽聲音）再接上 Piper TTS——一個會看、會聽、會說、會寫 code 的完整離線語音助手。端到端約 2.8 秒，硬體約 NT$500。
#gemma-4 #gtx-970 #multimodal #piper-tts
2026-06-094m
[趣味競賽] GTX 970 跑 Gemma 4 E2B：最大的量化檔反而最快（47.6 tok/s）
在 2014 年的 GTX 970 上跑 Gemma 4 E2B 四種量化。3.2GB 的 QAT Q4_0 反而比 2.9GB 的 Q2_K 快（47.6 vs 32.8 tok/s）——因為沒有 tensor core 的 Maxwell 老卡卡在解量化，不是卡頻寬。
#gemma-4 #quantization #gtx-970 #llama.cpp
2026-06-053m
[Benchmark] NVFP4 量化砍繁中比砍英文兇兩倍：gemma-4-12B 實測
我在 DGX Spark 上把 gemma-4-12B 量化成 BF16 / FP8 / NVFP4 weight-only，分別測英文 MMLU 跟繁中 TMMLU+。FP8 兩邊都近無損；NVFP4 繁中掉 6 分、英文只掉 3 分。
#dgx-spark #gb10 #gemma-4 #nvfp4
2026-06-051m
[Agent 入門 #7] 讓助理自己跑任務：每天自動研究、主動傳 LINE 給你
系列最後一步，也最有感：設一個會自己跑的任務。用一句白話交代，它每天自動上網研究你關心的事、整理成重點，主動傳 LINE 來找你。設完關電腦，隔天早上它自己叮你。
#ai-助理 #ai-agent #hermes #line
2026-06-052m
[Agent 入門 #6] 接上 LINE：從手機就能使喚你的助理
門開好了，這篇把助理接上 LINE。你做只有本人能做的事（登入 LINE 後台、複製兩把鑰匙、掃 QR 加好友），技術設定交給 Hermes。接完從手機傳一句話，它就回你。
#ai-助理 #ai-agent #hermes #line
2026-06-052m
[Agent 入門 #5] 幫你的電腦開一扇對外的門：用 ngrok 讓 LINE 找得到它
要讓助理接 LINE，得先讓外面的 LINE 伺服器連得到你家裡的電腦。這篇用 ngrok 幫電腦開一扇固定的對外門，一行指令、免費、不用自己有網域，重開機也不會斷。
#ai-助理 #ai-agent #hermes #ngrok
2026-06-052m
[Agent 入門 #4] Hermes Agent Desktop 桌面版安裝教學：手把手下載、裝好你的第一個 AI 助理
Hermes Agent Desktop（桌面版）下載 + 安裝教學。不用碰終端機：到官網下載桌面版、第一次打開自動裝好相依套件、用 ChatGPT 帳號登入，十幾分鐘就有一個你自己的 AI 助理在跑。
#ai-助理 #ai-agent #hermes #chatgpt
2026-06-043m
[Benchmark] Gemma 4 12B omni 上 DGX Spark:weight-only NVFP4 贏 W4A4,還保住多模態
我在 DGX Spark GB10 上量化 Google 新的 omni Gemma 4 12B。weight-only NVFP4 只要 7.7GB、跑 24.9 tok/s,而且圖片/語音/影片都還能用 —— 全 W4A4 反而沒比較快,還把多模態弄壞。
#dgx-spark #gb10 #gemma-4 #nvfp4
2026-06-041m
[Agent 入門 #3] 我們的固定組合：ChatGPT 當大腦、Hermes 當身體
一個 AI 助理＝大腦＋身體。大腦直接用你的 ChatGPT、身體用 Hermes，固定一套不用挑。這篇講為什麼這樣配，還有動手裝之前要準備什麼。
#ai-助理 #ai-agent #hermes #chatgpt
2026-06-041m
[Agent 入門 #2] 什麼是 agent 框架？為什麼別自己寫程式，直接用現成的就好
想要自己的 AI 助理，你不用從零寫程式。agent 框架已經把麻煩事整包做好，裝起來就能用。這篇講為什麼別自己拼，直接用現成的 Hermes。
#ai-助理 #ai-agent #hermes #新手入門
2026-06-041m
[Agent 入門 #1] AI 助理跟 ChatGPT 差在哪？一個回答你，一個用你的工具幫你做事
你平常用 ChatGPT 多半是問一句它答一句。自己養的 AI 助理（agent）則能用你自己的工具把事做完、跑在你這邊、接你天天在用的軟體。從 0 打造自己助理的第一課。
#ai-助理 #ai-agent #chatgpt #新手入門
2026-06-024m
[AI Agent] 本機 agent 生圖一直發瘋,問題在工具不在模型
本機 35B agent 生圖生影片一直亂試,我差點跑去微調它。動手前先讀 tool-call log:格式 0% 出錯。模型沒問題,是一個壞掉的 ComfyUI 工具逼它即興。解法是一個乾淨的 ACI skill,不是微調。
#ai-agent #aci #harness #comfyui
2026-06-013m
[Benchmark] NVFP4 把影片模型砍小三分之一,速度卻一點沒快——因為 diffusion 是 compute-bound
NVFP4 把蒸餾版 Sulphur 2(LTX-2.3)影片模型從 29 砍到 19.5 GB,在 GB10 DGX Spark 上畫質速度都沒掉。影片 diffusion 是 compute-bound,跟 LLM decode 剛好相反。
#nvfp4 #sulphur-2 #ltx-2.3 #dgx-spark
2026-06-015m
[Benchmark] NVFP4 W4A4 在 DGX Spark 上超車 FP8:拔掉 enforce-eager,MoE 從 23 衝到 67 tok/s
GB10 上 NVFP4 W4A4 拔掉 --enforce-eager 後從 23 衝到 67 tok/s,贏 FP8 29% 還省 16GB。Part 32 說 cudagraph 沒用——那只對 dense,MoE 完全相反。
#nvfp4 #w4a4 #fp8 #dgx-spark
2026-05-304m
[Benchmark] NVFP4 在 DGX Spark 比 FP8 快 1.5 倍——但贏在壓縮，不是那顆 FP4 運算單元
GB10 DGX Spark 上，純 dense 模型單流 decode，NVFP4 比 FP8 快約 1.5 倍。但快的是頻寬（權重檔變小），不是 FP4 tensor core——最快那條路根本沒碰它。
#nvfp4 #fp8 #dgx-spark #gb10
2026-05-273m
[AI 會做事了] AI 像你一樣控制電腦 — 從聊天機器到動手做事，這兩年發生了什麼
ChatGPT 剛紅那會兒，AI 是「丟字給你、你照做」。這兩年，它開始能查、能讀、能點滑鼠 — 從聊天機器變成會動手的東西。這篇整理這條演進過程，跟它為什麼重要。
#ai #ai-agent #computer-use #入門
2026-05-232m
[LLM 101 #7] 怎麼看出 AI 在胡說？三個訊號讓你提早警覺
AI 自信地給你錯答案，語氣跟講真話一樣。三個訊號讓你提早警覺 — 數字超出範圍、細節太精確、重複問會跳號 — 加我自己被 ChatGPT 騙的真實案例。
#llm #幻覺 #入門 #驗證
2026-05-217m
Round 2 EAGLE-3 retrain 沒打破天花板 — 60 小時訓練的 null result + 教訓
Round 1 在 chat workload 上沒有 2× speedup 後,Round 2 加 30K 中文 instruction data + huihui body 重生 response,訓練 41 小時。結果:Round 2 B drafter chat EN 45 tok/s / ZH 29 tok/s,跟 v1 基本相同,**遠輸 vanilla MTP n=4 的 EN 53 / ZH 45**。確認 EAGLE-3 small head 對上 abliterated body 的架構天花板,more data 救不了。順帶找到 vLLM Gemma 4 preview image(`gemma4-0505-arm64-cu130`,內部 build `0.20.2rc1.dev49+g9b4e83934`)在 long-run extract_hidden_states 的 scheduler deadlock(三次踩到 + watchdog 補完)。
#gemma-4 #abliteration #eagle-3 #speculative-decoding
2026-05-192m
[Claude Code] 規則我會跳過，hook 我跳不過 — 我替自己裝了一個發文閘
我有一條「發文前要查證」的規則,還是寫了三次說錯。問題不在規則,在它放在哪一層。這篇講我怎麼把它從 skill 升級成 hook — 一段守在「按下送出」那一刻的小程式,沒查證連嘗試都不准。
#claude-code #hooks #skills #驗證
2026-05-169m
Fine-tune EAGLE-3 drafter 在 abliterated Gemma 4 上 — Round 1 拉平 acceptance 曲線(+ 一個 measurement lesson)
在 DGX Spark GB10 上把 RedHatAI EAGLE-3 drafter fine-tune 對齊 huihui Gemma 4 26B-A4B abliterated FP8 body 的 distribution。1 epoch / 50k Magpie samples / 11h 訓練。Inference bench(raw `/v1/completions`)pos 3 acceptance 從 vanilla 的 20.5% → 72.7%、n=4 throughput 從 50 → 100.36 tok/s aggregate。**後續 paired bench 發現原 throughput 比較 baseline 跟 retrain 用了不同 endpoint(chat vs raw)— production chat workload 上 retrain drafter 的真實提升遠小於 2×,詳見文首 endpoint correction**。Part 28 證實的「abliterated body deep speculation acceptance 散開」這個機制觀察仍成立。順帶找到 Speculators upstream create_empty_sample dtype bug + Phase 0 整理 6 個社群 prior art。
#gemma-4 #abliteration #eagle-3 #speculative-decoding
2026-05-144m
在 DGX Spark 上 30 行 docker 拿 +34%:huihui Gemma 4 FP8 + vanilla MTP n=1 部署 recipe
Part 28 是 mechanism,這篇是 recipe:abliterated Gemma 4 26B-A4B FP8 跑在 GB10 上,搭官方 vanilla draft 開 num_speculative_tokens=1,baseline 39.3 → 52.6 tok/s (+34%),不用重訓 drafter。30 行 docker run + bind-mount PR #41745 head 的 gemma4_mtp.py 就能拿到。包含 sanity check 跟什麼時候 n=1 不夠用的判斷。
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-098m
想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
自量化 huihui Gemma 4 26B-A4B abliterated 成 FP8 ship 上 HF。完整 n=1..4 sweep 後發現:abliterated body 跟 vanilla baseline 完全一樣快,n=1 上 MTP 加成也一樣;但 n=4 deep speculation 上 huihui 因為 per-position decay 陡(每 step 22pp)而被 vanilla 拉開兩倍。Tax 的真實樣貌是 conditional on num_speculative_tokens,不是固定百分比。
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-067m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
Google 2026-05-05 發 Multi-Token Prediction drafter,vLLM PR 同日開、官方 preview docker 同日有。DGX Spark 上實測 Gemma 4 26B-A4B-it FP8 + MTP γ=4:單流 108 tok/s(2.66× baseline)、8 路並行 674 tok/s 總吞吐。一個沒寫進文件的雷:drafter 不能配 base model,要配 -it。
#gemma-4 #mtp #speculative-decoding #vllm
2026-05-055m
[Skill] 我的繁中不夠台 — zhtw-mcp 掃 72 篇文章修了 128 處陸用詞
sysprog21/zhtw-mcp 把繁中規則編譯成執行檔。掃 ai-muninn 全部 72 篇繁中文章三輪修了 128 處陸用詞,但真正的收穫不是修了多少 — 是發現我的盲點不是「不知道台灣怎麼說」,是「碰到陸用詞時預設不會主動懷疑」。
#zh-tw #ai-workflow #檢查工具 #skills
2026-05-049m
[實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證
Z-Image Turbo 量化版會不會崩品質?LPIPS(perceptual 距離 vs BF16)+ CLIPScore(image-text 對齊)雙軸跑 6 prompt × 4 config × 3 seed = 72 sample。結論:NVFP4 跟 BF16 圖長得不一樣,但這個 N=72 sample 沒測到任何量化 config 的 prompt fidelity regression — 4 個 config CLIPScore 都在 ±std 0.04 內,差距比 noise 小一個數量級。
#z-image #comfyui #nvfp4 #fp8
2026-05-048m
[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
DGX Spark GB10 上 Z-Image Turbo 6 種量化組合(BF16 / FP8 cast 標準 / FP8 cast fast / FP8 scaled Kijai / NVFP4 / NVFP4+FP8 encoder)實測。N=10 隔離 GPU 測,NVFP4 5.50s warm 比 BF16 7.55s 快 1.37×,FP8 三條 path 全比 BF16 慢。模型工作集 RSS 從 BF16 20.6 GB 降到 NVFP4+FP8 11.5 GB(省 44%)。
#z-image #comfyui #nvfp4 #fp8
2026-05-032m
[AI 速成 #5] AI 答案是不是亂編？三招 30 秒驗證
AI 一樣自信地給你對的答案跟編的答案，分不出來。三招 30 秒驗：具體事實 Google 一次、叫 AI 補連結點開看、換家問或開臨時聊天。
#ai #chatgpt #gemini #claude
2026-05-017m
[vLLM] DGX Spark 跑英文影片：Nemotron Omni 多模態實戰
同一台 DGX Spark，這次不拚速度，改拚「看完英文影片講給我聽」。3 分鐘 Karpathy 演講 89 秒處理完，5 萬 4 千 prompt token，逐字稿和畫面內容都對。記錄兩個踩過的雷：use_audio_in_video flag 放錯位置會幻覺音訊、b12x patch 過的 image 在 Omni 上會吐 NaN。
#nemotron-omni #multimodal #vllm #dgx-spark
2026-05-018m
[vLLM] DGX Spark 跑 Nemotron 3 Nano NVFP4：74.75 tok/s，比公開值快 11.5%
十天前我說 NVFP4 在 DGX Spark 上是個坑、FP8 比較快。今天同一台機器跑 Nemotron 3 Nano W4A16 飆到 74.75 tok/s，連我自己之前的 FP8 hack 紀錄一起踩過去。這篇講 4 層 patch、quant variant 怎麼選、跟記憶體頻寬天花板的算法。
#nemotron-3 #nvfp4 #vllm #dgx-spark
2026-05-012m
[AI 速成 #3] ChatGPT、Claude、Gemini 30 秒選好你該用哪個
三個主流 AI 各自有強項，選錯就是用錯工具。一句話分辨：第一次接觸選 ChatGPT、要寫長文選 Claude、用 Google 服務多選 Gemini。文末有對照表跟快速決策流程。
#ai #chatgpt #claude #gemini
2026-04-306m
Vercel Edge Requests 1M/1M 爆了，原因是一行 cache header
ai-muninn 這個月 Vercel Edge Requests 用滿 1M/1M，免費額度被擋。原因不是流量，不是 bot，是 Next.js 預設讓 /public/* 回 must-revalidate，連 cache HIT 都算 edge request。修法只有 3 行 config，但本月扣掉的配額拿不回來。
#vercel #next.js #performance #cache-control
2026-04-292m
[AI 速成 #2] 跟 AI 講話的 3 個開場白，答案直接更貼需求
AI 第一句問得不好，後面追多少都是補洞。三個開場白：角色扮演、講清情境、講最終目標——任選一個用，AI 回答品質會明顯差很多。文末有 copy-paste prompt 範本。
#ai #chatgpt #prompt #入門
2026-04-289m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark：4 次 OOM、3 個 prefix bug、最終 51 tok/s
把 huihui-ai 的 Qwen3.6-35B-A3B abliterated BF16 量化成 FP8，部署到 DGX Spark GB10。從 4 次 OOM 到 1.68× over BF16 的完整旅程：UMA 物理上限、save_pretrained 的 50GB shard 陷阱、語言模型 prefix bug、MTP speculative decoding，以及為什麼第一個成功的版本根本沒做 FP8 cast。
#dgx-spark #gb10 #sm121 #llm-compressor
2026-04-275m
[SWE-bench] Qwen 3.6 35B 檢討考卷:155 題答錯,76% 是「找對檔案、改錯邏輯」
Qwen 3.6 35B-A3B 在 SWE-bench Lite 拿 48.33%(145/300),貼近 SWE-agent + Claude 3.7 Sonnet。但剩下的 155 題告訴你模型還差什麼:76% 是「找對檔案、改錯邏輯」。Gemma 4 26B 同一套 scaffold 拿 38.67% — 9.66% 落差大概率來自不同失敗類型的比例不同。
#swe-bench #qwen-3.6 #gemma-4 #failure-analysis
2026-04-272m
[AI 速成 #4] 不知道用 AI 做什麼？問自己這 5 件事
打開 ChatGPT 不知道從哪開始？需求不是天生就知道，是被找出來的。從每週重複的事、最常 Google 的問題、一直拖的事、看不懂的東西、卡住的下一步，五個角度幫你挖出 AI 真正能幫你的場景。
#ai #chatgpt #入門 #ai-怎麼問
2026-04-271m
[AI 速成 #1] 三個問題，讓 ChatGPT 給你完美解答
ChatGPT 第一次回答不夠好不要放棄。再追三句話：「澄清問題」、「補充情境」、「指定格式」——80% 場景用這個套路就解決。文末有可以直接抄的 prompt。
#ai #chatgpt #prompt #入門
2026-04-264m
[Benchmark] Qwen 3.6 35B 做了 abliteration 之後：繁中總分掉 1.85 分，信託實務掉 7.7 分
把 huihui-ai 的 abliterated Qwen 3.6 35B 丟進 Part 21 同一套 TMMLU+ 測下去。總分從 75.07% 掉到 73.22%。代價分布不平均：規範性題目（信託 −7.7、行政法 −7.1）失血最重，純邏輯反而略好。台語也變更差——abliteration 解不了資料缺乏。
#tmmlu+#abliteration #繁體中文 #qwen-3.6
2026-04-254m
[Benchmark] 繁中 LLM 實測：Qwen 3.6 35B 在 TMMLU+ 51 個子科目全勝 Gemma 4 26B
同一台 DGX Spark、同一套 harness、同樣 22,690 題。Qwen 3.6 35B-A3B 拿到 75.07%，Gemma 4 26B-A4B 拿到 46.30%。Qwen 在 51 個子科目上一個都沒輸——連我原本以為 Gemma 會贏的台灣題目都沒贏。
#tmmlu+#繁體中文 #qwen-3.6 #gemma-4
2026-04-2210m
[實作] 用 Triton 讓 NVFP4 在 GB10 上快 17%：FP8 Tensor Core 繞路攻略
Part 19 證明 NVFP4 在 DGX Spark 上是陷阱。這篇直接動手：寫 Triton kernel 把 NVFP4 轉成 FP8，餵 FP8 tensor core。從 40.8 提升到 47.6 tok/s，附完整程式碼。
#nvfp4 #fp8 #triton #dgx-spark
2026-04-214m
[Benchmark] NVFP4 在 GB10 上是陷阱：FP8 快 32%（vLLM + SGLang 雙引擎實測）
NVFP4 理論上更快——位元更少、頻寬更省。但在 DGX Spark 的 GB10 (SM121) 上反而慢 32%。根因：缺硬體指令。vLLM 和 SGLang 雙引擎驗證。
#nvfp4 #fp8 #dgx-spark #gb10
2026-04-204m
[Benchmark] 同 Scaffold、三個模型：SWE-bench Lite 16% → 38% → 48%
一套 scaffold（backticks + edit-tool + budget prompt），三個模型（Gemma 4 E4B、Gemma 4 26B、Qwen 3.6 35B），跑之間零程式碼改動。Qwen 3.6 拿到 48.33%——超越 SWE-agent + Claude 3.7 Sonnet。Scaffold 是固定成本，模型是變數。
#swe-bench #gemma-4 #qwen-3.6 #scaffold
2026-04-176m
[Benchmark] 26B 地端模型在 SWE-bench Lite 拿到 38.67% — 差 Claude 3.5 Sonnet 系統 0.33%
Gemma 4 26B-A4B FP8 在 SWE-bench Lite 解了 116/300 題，全球排名 #16。跑在 DGX Spark 上，零 API 費。差距在 scaffold 設計，不是模型大小。
#swe-bench #gemma-4 #mini-swe-agent #vllm
2026-04-174m
[LLM 101 #6] 為什麼要在自己電腦跑 AI？不是更便宜的 ChatGPT，是完全不同的工具
本地 AI 不是便宜版 ChatGPT。它是知識萃取器、私有程式碼助手、離線工具。月電費 NT$41 vs ChatGPT Plus NT$640 — 但便宜不等於好用。這篇教你什麼時候該用哪一種。
#llm #本地-ai #ollama #入門
2026-04-164m
[AI 怎麼問 #7] AI 做不好哪些事？2026 年用 ChatGPT / Claude 前必須知道的四個地雷
AI 很強，但在 2026 年還是有四個地方會踩雷：幻覺、資料過時、記性不好、隱私外洩。寫這篇文章時我自己就被 Gemini 幻覺擺了兩次。
#ai #幻覺 #chatgpt #claude
2026-04-154m
[AI Agent] Gemma 4 26B 跑通 SWE-bench Lite 單題：兩天 28 次 run，2 次真的算數
在 GX10 用 mini-swe-agent + vLLM 跑 SWE-bench Lite 單題，從假成功的 doc 一路修到 Gemma 4 38 步乾淨 submit 正確 patch 的 scaffold engineering 紀錄。
#swe-bench #mini-swe-agent #gemma-4 #vllm
2026-04-155m
[LLM 深水區] 量化演算法在做什麼？從 Q4_K_M 到 TurboQuant 的三層拆解
Q4_K_M 用 4 bit 怎麼裝得下 14B 模型？答案不是「切掉 75%」，而是 K-quant 的 super-block 分組、TurboQuant 的隨機旋轉、跟 QJL 的 1-bit sign sketch 三層演算法。一篇講清楚機制，但不推公式。
#llm #量化 #quantization #k-quant
2026-04-142m
[AI 怎麼問 #6] 追問的藝術 — 第一個答案太淺怎麼辦
AI 給你的第一個答案只是草稿。學會五種追問技巧 — 加限制條件、要比較、讓 AI 反問你 — 同一個問題的答案品質天差地遠。
#ai #對話技巧 #追問 #入門
2026-04-144m
[LLM 101 #5] Context Window — AI 一次能讀多少字？
AI 聊到一半就忘記你說過的話？不是它壞了，是它的書桌滿了。這篇解釋什麼是 context window、為什麼對話太長會出問題、怎麼避開這個限制。
#llm #context-window #入門 #科普
2026-04-134m
[AI Agent] Gemma 4 從 40 次失敗到 9 步修好 Bug — 只換了一個東西
可行性測試：開源模型能免費在本地跑 SWE-Bench 嗎？Gemma 4 26B 在 OpenHands 上失敗（40+ 錯誤），但在 SWE-agent 上 9 步修好測試 bug。同一個模型，差別在 action 格式。
#swe-bench #gemma-4 #qwen-3.5 #openhands
2026-04-134m
[Benchmark] Gemma 4 全家桶 on DGX Spark — 哪個版本適合你？
Gemma 4 E2B / E4B / 26B MoE / 31B Dense 在 DGX Spark、RTX 5090、MacBook Pro 上的完整對照表。一張表看完速度、記憶體、量化格式。附選擇建議。
#gemma-4 #dgx-spark #gb10 #benchmark
2026-04-137m
Claude Code Token 燒太快？8 招讓你的 Session 撐 10 倍久
剛開始用 Claude Code，context window 一直滿。這篇解釋 token 花去哪、哪些浪費了、怎麼讓 Claude 更精準地找資料而不是暴力讀檔。
#claude-code #tokens #context-window #新手
2026-04-132m
[AI 怎麼問 #5] 在你動手做之前，先問：這東西已經有人做了嗎？
你問 AI 的第一個問題不該是「幫我做 X」，而是「有沒有已經能做 X 的工具？」這篇教你怎麼用 AI 當研究助手 — 找工具、比較方案、確認它還活著。
#ai #工具推薦 #工作效率 #入門
2026-04-134m
[Claude Code] 讓 Claude 自己幫你瘦身 — 打造 /slim 設定檔健檢 Skill
CLAUDE.md 和 MEMORY.md 會默默長大，直到每個 turn 吃掉 10K+ tokens。我做了一個 /slim skill 讓 Claude 自己診斷和修復膨脹 — 這是完整做法。
#claude-code #tokens #context-window #skills
2026-04-134m
[DGX Spark] 從開箱到跑起來：完整部署指南
從密封箱到跑出第一個 LLM 的所有步驟。硬體檢查、Ollama 快速上手、vLLM 正式部署、模型選擇、5 個會浪費你整天的坑。
#dgx-spark #gb10 #gx10 #vllm
2026-04-112m
[AI 怎麼問 #4] 為什麼你覺得 AI 沒用？答案機器 vs 協作工具
同一個 AI，同樣的問題，結果卻完全不同。覺得 ChatGPT 改變人生的人和覺得它沒用的人，其實在做兩件完全不同的事 — 差別只在一個心態轉換。
#ai #chatgpt #提問技巧 #入門
2026-04-105m
[LLM 101 #4] 什麼是量化？Q4、Q8、FP16 到底差在哪
Q4_K_M、Q8_0、FP16 — 同一個模型有十幾種版本，名字看起來像亂碼。這篇告訴你量化到底在做什麼、為什麼不會把模型搞壞、以及你該下載哪一個版本。
#llm #量化 #ollama #入門
2026-04-102m
[AI 怎麼問 #3] 你不知道自己需要什麼 — 讓 AI 幫你挖出來
大部分人不是不會用 AI，是不知道自己工作裡哪些事可以交給 AI。這篇教你用一個簡單的方法，讓 AI 幫你找出每天重複做卻沒意識到的事情。
#ai #工作效率 #入門 #工作流程
2026-04-105m
[LLM 101 #3] 那麼多模型，到底該下載哪一個？
Gemma、Llama、Qwen、Mistral — 模型清單看得眼花撩亂。這篇用買車的邏輯教你怎麼從大小、速度、品質三個維度選到適合你的 AI 模型。
#llm #模型選擇 #ollama #入門
2026-04-092m
[AI 怎麼問 #2] 打開 AI 之後，你的第一句話該怎麼說？
AI 不是 Google，你不是在搜尋，你在對話。這篇教你打開 ChatGPT 之後該怎麼開口、五個立刻能試的任務、和回答不滿意時怎麼調整。
#ai #chatgpt #入門 #對話技巧
2026-04-093m
[AI 怎麼問 #1] 2026 年，你可以用的 AI 有哪些？
ChatGPT、Claude、Gemini — 三個你現在就能用的 AI 助手。這篇用最白話的方式介紹它們各自的強項、價錢、和怎麼開始，幫你選到適合自己的那一個。
#ai #chatgpt #claude #gemini
2026-04-085m
[Benchmark] 拯救 Gemma 4 31B：在 32GB MacBook Pro 上從 1.5 加速到 12.8 tok/s
Gemma 4 31B 在 MBP M1 Max 上用 Ollama 只有 1.5 tok/s（swap）。解法：降 context window（9 tok/s）或用 oMLX（12.8 tok/s）。真正的兇手是 KV cache 分配，不是模型大小。
#gemma-4 #31b #m1-max #ollama
2026-04-086m
[Benchmark] 4 台機器、4 個模型、1 個答案：記憶體決定一切
Gemma 4 E2B 到 31B 在 RTX 5090、M1 Max、DGX Spark、M4 上用 Ollama 完整測試。E2B 在 5090 上 310 tok/s。31B 在 MBP 上 1.5 tok/s — swap 殺死一切。記憶體容量 > 頻寬速度。
#gemma-4 #rtx-5090 #dgx-spark #gb10
2026-04-084m
[LLM 101 #2] Dense、MoE、PLE、SSM — 四種 AI 模型架構，一次搞懂
Dense 是全員出動，MoE 是專家輪班，PLE 是每層樓有自己的櫃台，SSM 是速讀高手。用零技術門檻解釋四種主流 AI 模型架構的差別，幫你看懂規格表。
#dense #moe #ple #ssm
2026-04-075m
[Benchmark] Gemma 4 E2B vs E4B：三台機器實測，記憶體頻寬決定一切
Gemma 4 E2B 在 M1 Max 跑到 81 tok/s，比 E4B 快 44-82%。三台機器、相同方法論、每輪獨立 prompt，排除 Ollama 快取干擾後的真實數據。
#gemma-4 #e2b #e4b #ollama
2026-04-076m
[Benchmark] 從 19 到 50 tok/s：我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化
Gemma 4 E4B NVFP4A16 在 DGX Spark 上跑 49.9 tok/s — 比 BF16 快 2.6 倍。HuggingFace 上第一個 NVFP4 checkpoint。PLE 架構解析、FP8 vs NVFP4、以及差點讓我們放棄的 llm-compressor 版本地獄。
#gemma-4 #e4b #nvfp4 #fp8
2026-04-073m
[LLM 101 #1] Ollama vs vLLM：在自己電腦跑 AI 的兩條路
Ollama 像微波爐，vLLM 像專業烤箱。兩個都能在你的電腦上跑 AI 模型，但適合的場景完全不同。這篇用零技術門檻的方式解釋差別、優缺點、和怎麼選。
#ollama #vllm #llm #本地部署
2026-04-053m
[Benchmark] Gemma 4 31B Dense 跑在 DGX Spark：7 tok/s 和頻寬之牆
Gemma 4 31B-IT NVFP4 在 GB10 上只有 7.0 tok/s — 273 GB/s 頻寬是天花板。算術預測 4.4 tok/s，NVFP4 壓縮多了 60% 但逃不出牆。請選 MoE。
#gemma-4 #nvfp4 #vllm #dgx-spark
2026-04-054m
[Benchmark] 同模型 vLLM vs Ollama：為什麼 GB10 上差 30%
同一個 Gemma 4 26B-A4B、同一張 GPU，vLLM NVFP4 跑 52 tok/s，Ollama Q4_K_M 只有 40。根因：Marlin kernel、CUDA graphs，以及 Ollama 靜默的 CPU/GPU split 陷阱。
#vllm #ollama #benchmark #dgx-spark
2026-04-055m
[vLLM] Gemma 4 26B-A4B NVFP4 跑在 DGX Spark：52 tok/s，模型只佔 16 GB
在 GB10 上用 vLLM 0.19 部署 Gemma 4 26B-A4B MoE NVFP4 — 52 tok/s decode、16.5 GB 模型、82 GB KV cache 可用。包含 Phase 0 決策過程和完整踩坑記錄。
#gemma-4 #nvfp4 #vllm #dgx-spark
2026-04-023m
[DGX Spark] 過熱、100W 功耗上限、30W 安全模式 — 完整診斷指南
DGX Spark 的供電和過熱問題在 Carmack 批評後引爆社群。這篇整理三種不同症狀的診斷方法：30W PD controller 缺陷（需 RMA）、100W 功耗上限（散熱降頻）、5W driver bug（可修）。一個指令 30 秒確認。
#gx10 #gb10 #dgx-spark #power-delivery
2026-03-304m
[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？
Google TurboQuant 在 GX10 (GB10/SM121) 上的實測數據 — 3-bit KV cache 壓縮的真實壓縮率、Qwen2.5-3B 精度驗證、以及 Qwen3.5-35B 的 hybrid attention 架構為什麼讓事情變得複雜。
#turboquant #kv-cache #quantization #vllm
2026-03-242m
[AI Agent] openclaw + ChatGPT OAuth：不買 API 額度也能用 GPT-5.4
openclaw 2026.3.13 加入了 OpenAI OAuth 登入。一行指令讓你的 agent 用 ChatGPT Plus 訂閱取得 GPT-5.4 的 100 萬 token context，不需要另外買 API credits。
#openclaw #gpt-5.4 #chatgpt #oauth
2026-03-243m
[AI Agent] NemoClaw 不靠雲端：把 Nemotron 換成本地 Ollama 模型
怎麼把 NemoClaw 的推理後端指向本地 Ollama 或 vLLM endpoint。Config 位置、模型替換，以及雲端消失後 OpenShell 仍然在做什麼。
#nemoclaw #openclaw #openshell #ollama
2026-03-234m
NemoClaw 安裝踩坑：官方文件沒寫的 4 個必修修正
NemoClaw 在 DGX Spark 上直接裝會失敗。這篇整理了 4 個官方文件沒提的修正（Node 升級、npm link、OpenShell tar.gz、cgroupns），30 分鐘跑起第一個 AI Agent。
#nemoclaw #openclaw #openshell #ai-agent
2026-03-232m
NemoClaw 是什麼？NVIDIA 一鍵 AI Agent 框架完整解析
NemoClaw = OpenClaw + OpenShell + NVIDIA Agent Toolkit 三合一。這篇講清楚它解決什麼問題、架構怎麼運作、值不值得在 DGX Spark 上裝。
#nemoclaw #openclaw #openshell #ai-agent
2026-03-213m
[AI Agent] openclaw 用 Telegram Bot API 9.5 sendMessageDraft 做即時串流
把 editMessageText 輪詢換成 sendMessageDraft，實現真正的動態串流輸出。patch 方式、thinking block 過濾、以及私訊裡的 optional chaining 坑。
#openclaw #telegram #streaming #bot-api
2026-03-213m
[AI Agent] openclaw 接上 131K Context：max_tokens 變負數的那一刻
openclaw 串接 gpt-oss-120B，第一條訊息就收到 400 max_tokens must be at least 1, got -1292。Context budget 的數學、config key 的坑、以及修法。
#openclaw #context-window #vllm #gpt-oss
2026-03-213m
[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈
vLLM serve script 加了 --kv-cache-dtype fp8，GB10 上輸出在約 500 token 後退化成重複字。根本原因：沒有 calibration data，q_scale 預設 1.0。
#vllm #fp8 #kv-cache #gb10
2026-03-214m
[Claude Code] claude-agent-sdk vs subprocess：中間 Turn 為什麼消失了
用 claude -p subprocess 建 multi-agent orchestrator，發現中間 turn 全被靜默丟棄。SDK 遷移、session resume、並行執行、以及 setting_sources 的影響。
#claude-code #claude-agent-sdk #multi-agent #orchestrator
2026-03-195m
[AI Agent] openclaw：Bot 突然消失了 — Tailscale、IPv6、和一個 Node.js 的安靜陷阱
Bot process 跑著、token 有效、訊息有收到。但沒有任何回應。四個錯誤假設、一張路由表，還有一個大多數人不知道的 Node.js 行為。
#node.js #tailscale #ipv6 #undici
2026-03-196m
[vLLM] 在 DGX Spark 上跑 120B 模型到 60 tok/s——零 API 成本、六個坑
怎麼讓 gpt-oss-120B 在 DGX Spark（GB10、SM121）上以 vLLM 跑到 60 tok/s。目標是讓 openclaw agent 用本地 120B 模型，零 API 費用。路上有六個坑，其中一個靜默失效的環境變數比其他五個加起來還難找。
#dgx-spark #sm121 #vllm #gpt-oss
2026-03-193m
[vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。
修完四個 SM121 NVFP4 bug 之後，Qwen3.5-122B 能跑、輸出正確。然後你看了速度：14 tok/s。沒有 flag 能修它。為什麼——以及在等什麼。
#dgx-spark #sm121 #qwen3.5-122b #vllm
2026-03-182m
[AI Agent] openclaw：Agent 卡住的時候，叫 CLI 來幫
怎麼在本地 agent loop 裡掛上 callhelp tool，讓它在推理途中 spawn Codex CLI。一個必設的 permission flag，還有為什麼 Claude quota 是我自己的。
#ai-agent #openclaw #codex #llm
2026-03-175m
[vLLM] 為什麼你的 DGX Spark 只會輸出「!!!!!」：SM121 上的 NVFP4 除錯記錄
CUTLASS FP4 kernel 是針對 SM120（GB200）編譯的。在 SM121（GB10，DGX Spark）上它會靜默執行，但輸出垃圾。完整除錯過程——4 個 bug、row-identical 失敗特徵，以及有效的修正方案。
#dgx-spark #sm121 #vllm #nvfp4
2026-03-163m
[AI Agent] Codex-Executor 模式：讓 Agent Session 保持輕量
為什麼我們停止讓 OpenClaw agent 直接編排多步驟任務，改成派生 Codex subprocess。這個模式讓 agent context 保持輕量、任務執行更可靠。
#ai-agent #claude-code #codex #agent-architecture
2026-03-135m
[vLLM] 單顆 GB10 跑 Nemotron-3-Super-120B：一天的除錯記錄
在 ASUS GX10（SM121，128GB）上跑 NVIDIA Nemotron-3-Super-120B-NVFP4。四個 SM121 專屬坑、一個沒有任何作用的環境變數，以及最終可用的 docker 指令。
#dgx-spark #gb10 #sm121 #nemotron
2026-03-073m
[vLLM] Ollama 的 KEEP_ALIVE 在偷吃你的 vLLM 記憶體空間
128GB 統一記憶體的機器 vLLM 重啟時 OOM。原因：Ollama KEEP_ALIVE=2h 把 19-51GB 壓在 GPU 上。診斷指令、手動 unload 方式、以及為什麼要把 KEEP_ALIVE 改成 0。
#vllm #ollama #gpu-memory #dgx-spark
2026-03-063m
[vLLM] SSM 模型不能加 --enable-chunked-prefill
把 --enable-chunked-prefill 加到 Qwen3.5-35B（SSM+MoE hybrid）上，吞吐量從 47 tok/s 掉到 5.7 tok/s。解釋為什麼 SSM 遞迴架構和 chunked prefill 根本不相容。
#vllm #ssm #qwen #dgx-spark
2026-03-057m
[vLLM] Qwen3.5-35B 跑到 47 tok/s：從 Ollama 遷移到 vLLM
TTFT 從幾秒降到 0.12s。DGX Spark GB10 上 Qwen3.5-35B 從 Ollama 換到 vLLM 的實戰筆記，含六個坑：SSM + chunked prefill 陷阱、記憶體衝突、docker 重啟順序。
#dgx-spark #gb10 #vllm #ollama
2026-03-054m
[AI Agent] 零 API 成本：用 DGX Spark + Mac Mini 跑 OpenClaw
完整的本地 AI Agent 架構：Mac Mini M4 當長駐 gateway，GX10 跑推理，Telegram 當介面。不需要訂閱，不需要雲端 API。六個部署心得。
#openclaw #ai-agent #dgx-spark #mac-mini
2026-03-014m
[Benchmark] 純 MoE vs SSM Hybrid：Context Decay 與為什麼 Agent 要在乎
GLM-4.7-Flash 短 context 57.8 tok/s，但 8K 時掉到 42 tok/s。Qwen3.5-35B SSM hybrid：短 56 tok/s，8K 仍 56 tok/s。為什麼有長 system prompt 的 agent 應該在乎這個差距。
#benchmark #ssm #moe #dgx-spark
2026-02-262m
[Dev Workflow] 讓兩個 AI 吵架。它們不同意的地方才是重點。
一個 /debate 指令讓 Codex CLI 和 Gemini CLI 對同一份程式碼互相辯論。訓練資料不同、盲點不同——它們的分歧通常是最有用的輸出。
#dev-workflow #claude-code #gemini #codex
2026-02-263m
[Claude Code] 用 Claude Code 測 iOS App：context 用量砍 81%
把截圖導向的 iOS 測試改成 ui_describe_all 優先，BPS Tracker 測試的 context 用量從 81,290 KB 降到 15,215 KB。外加 Fastlane 整合：截圖、App Store 上傳全自動。
#claude-code #ios #swift #testing
2026-02-253m
[AI Agent] OpenClaw Config 熱重載：不需要重啟
花了好幾週每次改設定都重啟 gateway。後來才發現有 file watcher。哪些東西可以立即熱重載、哪些還是要重啟、還有怎麼區分 auth 失敗和短暫網路錯誤。
#ai-agent #openclaw #configuration #developer-workflow
2026-02-193m
[Claude Code] 我寫了 MANDATORY。AI 還是沒跑。
設定檔裡標了 MANDATORY 的規則，同一個 session 裡被跳過了兩次。這篇解釋三個架構原因為什麼強調沒用，以及三個真正有效的系統設計解法。
#claude-code #ai-agents #prompt-engineering #systems-design
2026-02-194m
[Benchmark] DGX Spark 跑 8 個模型：找出最適合 AI Agent 的組合
在 NVIDIA GB10（128GB 統一記憶體）上，用 7 個任務類別評測 8 個本地 LLM。量化的意外結論、一個連 JSON 都出錯的 120B 模型，以及把整個 token budget 用來思考的 thinking model。
#dgx-spark #gb10 #ollama #benchmark

showing 120 篇文章