技術筆記 — ai-muninn

❯

❯ ls -la ~/blog

75 篇文章 · 11 個系列

#dgx-spark (37)#vllm (31)#gb10 (25)#gemma-4 (18)#benchmark (18)#入門 (17)#sm121 (15)#ollama (15)#nvfp4 (14)#ai (12)#ai-agent (11)#chatgpt (10)#openclaw (10)#fp8 (9)#gemma-4-26b-a4b (9)

日期閱讀標題
2026-05-098m
想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
自量化 huihui Gemma 4 26B-A4B abliterated 成 FP8 ship 上 HF。完整 n=1..4 sweep 後發現:abliterated body 跟 vanilla baseline 完全一樣快,n=1 上 MTP 加成也一樣;但 n=4 deep speculation 上 huihui 因為 per-position decay 陡(每 step 22pp)而被 vanilla 拉開兩倍。Tax 的真實樣貌是 conditional on num_speculative_tokens,不是固定百分比。
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-067m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
Google 2026-05-05 發 Multi-Token Prediction drafter,vLLM PR 同日開、官方 preview docker 同日有。DGX Spark 上實測 Gemma 4 26B-A4B-it FP8 + MTP γ=4:單流 108 tok/s(2.66× baseline)、8 路並行 674 tok/s 總吞吐。一個沒寫進文件的雷:drafter 不能配 base model,要配 -it。
#gemma-4 #mtp #speculative-decoding #vllm
2026-05-055m
[Skill] 我的繁中不夠台 — zhtw-mcp 掃 72 篇文章修了 128 處陸用詞
sysprog21/zhtw-mcp 把繁中規則編譯成執行檔。掃 ai-muninn 全部 72 篇繁中文章三輪修了 128 處陸用詞,但真正的收穫不是修了多少 — 是發現我的盲點不是「不知道台灣怎麼說」,是「碰到陸用詞時預設不會主動懷疑」。
#zh-tw #ai-workflow #檢查工具 #skills
2026-05-048m
[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
DGX Spark GB10 上 Z-Image Turbo 6 種量化組合(BF16 / FP8 cast 標準 / FP8 cast fast / FP8 scaled Kijai / NVFP4 / NVFP4+FP8 encoder)實測。N=10 隔離 GPU 測,NVFP4 5.50s warm 比 BF16 7.55s 快 1.37×,FP8 三條 path 全比 BF16 慢。模型工作集 RSS 從 BF16 20.6 GB 降到 NVFP4+FP8 11.5 GB(省 44%)。
#z-image #comfyui #nvfp4 #fp8
2026-05-049m
[實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證
Z-Image Turbo 量化版會不會崩品質?LPIPS(perceptual 距離 vs BF16)+ CLIPScore(image-text 對齊)雙軸跑 6 prompt × 4 config × 3 seed = 72 sample。結論:NVFP4 跟 BF16 圖長得不一樣,但這個 N=72 sample 沒測到任何量化 config 的 prompt fidelity regression — 4 個 config CLIPScore 都在 ±std 0.04 內,差距比 noise 小一個數量級。
#z-image #comfyui #nvfp4 #fp8
2026-05-032m
[AI 速成] AI 答案是不是亂編？三招 30 秒驗證
AI 一樣自信地給你對的答案跟編的答案，分不出來。三招 30 秒驗：具體事實 Google 一次、叫 AI 補連結點開看、換家問或開臨時聊天。
#ai #chatgpt #gemini #claude
2026-05-012m
[AI 速成] ChatGPT、Claude、Gemini 30 秒選好你該用哪個
三個主流 AI 各自有強項，選錯就是用錯工具。一句話分辨：第一次接觸選 ChatGPT、要寫長文選 Claude、用 Google 服務多選 Gemini。文末有對照表跟快速決策流程。
#ai #chatgpt #claude #gemini
2026-05-018m
[vLLM] DGX Spark 跑 Nemotron 3 Nano NVFP4：74.75 tok/s，比公開值快 11.5%
十天前我說 NVFP4 在 DGX Spark 上是個坑、FP8 比較快。今天同一台機器跑 Nemotron 3 Nano W4A16 飆到 74.75 tok/s，連我自己之前的 FP8 hack 紀錄一起踩過去。這篇講 4 層 patch、quant variant 怎麼選、跟記憶體頻寬天花板的算法。
#nemotron-3 #nvfp4 #vllm #dgx-spark
2026-05-017m
[vLLM] DGX Spark 跑英文影片：Nemotron Omni 多模態實戰
同一台 DGX Spark，這次不拚速度，改拚「看完英文影片講給我聽」。3 分鐘 Karpathy 演講 89 秒處理完，5 萬 4 千 prompt token，逐字稿和畫面內容都對。記錄兩個踩過的雷：use_audio_in_video flag 放錯位置會幻覺音訊、b12x patch 過的 image 在 Omni 上會吐 NaN。
#nemotron-omni #multimodal #vllm #dgx-spark
2026-04-306m
Vercel Edge Requests 1M/1M 爆了，原因是一行 cache header
ai-muninn 這個月 Vercel Edge Requests 用滿 1M/1M，免費額度被擋。原因不是流量，不是 bot，是 Next.js 預設讓 /public/* 回 must-revalidate，連 cache HIT 都算 edge request。修法只有 3 行 config，但本月扣掉的配額拿不回來。
#vercel #next.js #performance #cache-control
2026-04-292m
[AI 速成] 跟 AI 講話的 3 個開場白，答案直接更貼需求
AI 第一句問得不好，後面追多少都是補洞。三個開場白：角色扮演、講清情境、講最終目標——任選一個用，AI 回答品質會明顯差很多。文末有 copy-paste prompt 範本。
#ai #chatgpt #prompt #入門
2026-04-289m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark：4 次 OOM、3 個 prefix bug、最終 51 tok/s
把 huihui-ai 的 Qwen3.6-35B-A3B abliterated BF16 量化成 FP8，部署到 DGX Spark GB10。從 4 次 OOM 到 1.68× over BF16 的完整旅程：UMA 物理上限、save_pretrained 的 50GB shard 陷阱、語言模型 prefix bug、MTP speculative decoding，以及為什麼第一個成功的版本根本沒做 FP8 cast。
#dgx-spark #gb10 #sm121 #llm-compressor
2026-04-271m
[AI 速成] 三個問題，讓 ChatGPT 給你完美解答
ChatGPT 第一次回答不夠好不要放棄。再追三句話：「澄清問題」、「補充情境」、「指定格式」——80% 場景用這個套路就解決。文末有可以直接抄的 prompt。
#ai #chatgpt #prompt #入門
2026-04-272m
[AI 速成] 不知道用 AI 做什麼？問自己這 5 件事
打開 ChatGPT 不知道從哪開始？需求不是天生就知道，是被找出來的。從每週重複的事、最常 Google 的問題、一直拖的事、看不懂的東西、卡住的下一步，五個角度幫你挖出 AI 真正能幫你的場景。
#ai #chatgpt #入門 #ai-怎麼問
2026-04-275m
[SWE-bench] Qwen 3.6 35B 檢討考卷:155 題答錯,76% 是「找對檔案、改錯邏輯」
Qwen 3.6 35B-A3B 在 SWE-bench Lite 拿 48.33%(145/300),貼近 SWE-agent + Claude 3.7 Sonnet。但剩下的 155 題告訴你模型還差什麼:76% 是「找對檔案、改錯邏輯」。Gemma 4 26B 同一套 scaffold 拿 38.67% — 9.66% 落差大概率來自不同失敗類型的比例不同。
#swe-bench #qwen-3.6 #gemma-4 #failure-analysis
2026-04-264m
[Benchmark] Qwen 3.6 35B 做了 abliteration 之後：繁中總分掉 1.85 分，信託實務掉 7.7 分
把 huihui-ai 的 abliterated Qwen 3.6 35B 丟進 Part 21 同一套 TMMLU+ 測下去。總分從 75.07% 掉到 73.22%。代價分布不平均：規範性題目（信託 −7.7、行政法 −7.1）失血最重，純邏輯反而略好。台語也變更差——abliteration 解不了資料缺乏。
#tmmlu+#abliteration #繁體中文 #qwen-3.6
2026-04-254m
[Benchmark] 繁中 LLM 實測：Qwen 3.6 35B 在 TMMLU+ 51 個子科目全勝 Gemma 4 26B
同一台 DGX Spark、同一套 harness、同樣 22,690 題。Qwen 3.6 35B-A3B 拿到 75.07%，Gemma 4 26B-A4B 拿到 46.30%。Qwen 在 51 個子科目上一個都沒輸——連我原本以為 Gemma 會贏的台灣題目都沒贏。
#tmmlu+#繁體中文 #qwen-3.6 #gemma-4
2026-04-2210m
[實作] 用 Triton 讓 NVFP4 在 GB10 上快 17%：FP8 Tensor Core 繞路攻略
Part 19 證明 NVFP4 在 DGX Spark 上是陷阱。這篇直接動手：寫 Triton kernel 把 NVFP4 轉成 FP8，餵 FP8 tensor core。從 40.8 提升到 47.6 tok/s，附完整程式碼。
#nvfp4 #fp8 #triton #dgx-spark
2026-04-214m
[Benchmark] NVFP4 在 GB10 上是陷阱：FP8 快 32%（vLLM + SGLang 雙引擎實測）
NVFP4 理論上更快——位元更少、頻寬更省。但在 DGX Spark 的 GB10 (SM121) 上反而慢 32%。根因：缺硬體指令。vLLM 和 SGLang 雙引擎驗證。
#nvfp4 #fp8 #dgx-spark #gb10
2026-04-204m
[Benchmark] 同 Scaffold、三個模型：SWE-bench Lite 16% → 38% → 48%
一套 scaffold（backticks + edit-tool + budget prompt），三個模型（Gemma 4 E4B、Gemma 4 26B、Qwen 3.6 35B），跑之間零程式碼改動。Qwen 3.6 拿到 48.33%——超越 SWE-agent + Claude 3.7 Sonnet。Scaffold 是固定成本，模型是變數。
#swe-bench #gemma-4 #qwen-3.6 #scaffold
2026-04-174m
[LLM 101] 為什麼要在自己電腦跑 AI？不是更便宜的 ChatGPT，是完全不同的工具
本地 AI 不是便宜版 ChatGPT。它是知識萃取器、私有程式碼助手、離線工具。月電費 NT$41 vs ChatGPT Plus NT$640 — 但便宜不等於好用。這篇教你什麼時候該用哪一種。
#llm #本地-ai #ollama #入門
2026-04-176m
[Benchmark] 26B 地端模型在 SWE-bench Lite 拿到 38.67% — 差 Claude 3.5 Sonnet 系統 0.33%
Gemma 4 26B-A4B FP8 在 SWE-bench Lite 解了 116/300 題，全球排名 #16。跑在 DGX Spark 上，零 API 費。差距在 scaffold 設計，不是模型大小。
#swe-bench #gemma-4 #mini-swe-agent #vllm
2026-04-164m
[AI 怎麼問] AI 做不好哪些事？2026 年用 ChatGPT / Claude 前必須知道的四個地雷
AI 很強，但在 2026 年還是有四個地方會踩雷：幻覺、資料過時、記性不好、隱私外洩。寫這篇文章時我自己就被 Gemini 幻覺擺了兩次。
#ai #幻覺 #chatgpt #claude
2026-04-154m
[AI Agent] Gemma 4 26B 跑通 SWE-bench Lite 單題：兩天 28 次 run，2 次真的算數
在 GX10 用 mini-swe-agent + vLLM 跑 SWE-bench Lite 單題，從假成功的 doc 一路修到 Gemma 4 38 步乾淨 submit 正確 patch 的 scaffold engineering 紀錄。
#swe-bench #mini-swe-agent #gemma-4 #vllm
2026-04-155m
[LLM 深水區] 量化演算法在做什麼？從 Q4_K_M 到 TurboQuant 的三層拆解
Q4_K_M 用 4 bit 怎麼裝得下 14B 模型？答案不是「切掉 75%」，而是 K-quant 的 super-block 分組、TurboQuant 的隨機旋轉、跟 QJL 的 1-bit sign sketch 三層演算法。一篇講清楚機制，但不推公式。
#llm #量化 #quantization #k-quant
2026-04-142m
[AI 怎麼問] 追問的藝術 — 第一個答案太淺怎麼辦
AI 給你的第一個答案只是草稿。學會五種追問技巧 — 加限制條件、要比較、讓 AI 反問你 — 同一個問題的答案品質天差地遠。
#ai #對話技巧 #追問 #入門
2026-04-144m
[LLM 101] Context Window — AI 一次能讀多少字？
AI 聊到一半就忘記你說過的話？不是它壞了，是它的書桌滿了。這篇解釋什麼是 context window、為什麼對話太長會出問題、怎麼避開這個限制。
#llm #context-window #入門 #科普
2026-04-132m
[AI 怎麼問] 在你動手做之前，先問：這東西已經有人做了嗎？
你問 AI 的第一個問題不該是「幫我做 X」，而是「有沒有已經能做 X 的工具？」這篇教你怎麼用 AI 當研究助手 — 找工具、比較方案、確認它還活著。
#ai #工具推薦 #工作效率 #入門
2026-04-134m
[Claude Code] 讓 Claude 自己幫你瘦身 — 打造 /slim 設定檔健檢 Skill
CLAUDE.md 和 MEMORY.md 會默默長大，直到每個 turn 吃掉 10K+ tokens。我做了一個 /slim skill 讓 Claude 自己診斷和修復膨脹 — 這是完整做法。
#claude-code #tokens #context-window #skills
2026-04-137m
Claude Code Token 燒太快？8 招讓你的 Session 撐 10 倍久
剛開始用 Claude Code，context window 一直滿。這篇解釋 token 花去哪、哪些浪費了、怎麼讓 Claude 更精準地找資料而不是暴力讀檔。
#claude-code #tokens #context-window #新手
2026-04-134m
[DGX Spark] 從開箱到跑起來：完整部署指南
從密封箱到跑出第一個 LLM 的所有步驟。硬體檢查、Ollama 快速上手、vLLM 正式部署、模型選擇、5 個會浪費你整天的坑。
#dgx-spark #gb10 #gx10 #vllm
2026-04-134m
[Benchmark] Gemma 4 全家桶 on DGX Spark — 哪個版本適合你？
Gemma 4 E2B / E4B / 26B MoE / 31B Dense 在 DGX Spark、RTX 5090、MacBook Pro 上的完整對照表。一張表看完速度、記憶體、量化格式。附選擇建議。
#gemma-4 #dgx-spark #gb10 #benchmark
2026-04-134m
[AI Agent] Gemma 4 從 40 次失敗到 9 步修好 Bug — 只換了一個東西
可行性測試：開源模型能免費在本地跑 SWE-Bench 嗎？Gemma 4 26B 在 OpenHands 上失敗（40+ 錯誤），但在 SWE-agent 上 9 步修好測試 bug。同一個模型，差別在 action 格式。
#swe-bench #gemma-4 #qwen-3.5 #openhands
2026-04-112m
[AI 怎麼問] 為什麼你覺得 AI 沒用？答案機器 vs 協作工具
同一個 AI，同樣的問題，結果卻完全不同。覺得 ChatGPT 改變人生的人和覺得它沒用的人，其實在做兩件完全不同的事 — 差別只在一個心態轉換。
#ai #chatgpt #提問技巧 #入門
2026-04-102m
[AI 怎麼問] 你不知道自己需要什麼 — 讓 AI 幫你挖出來
大部分人不是不會用 AI，是不知道自己工作裡哪些事可以交給 AI。這篇教你用一個簡單的方法，讓 AI 幫你找出每天重複做卻沒意識到的事情。
#ai #工作效率 #入門 #工作流程
2026-04-105m
[LLM 101] 那麼多模型，到底該下載哪一個？
Gemma、Llama、Qwen、Mistral — 模型清單看得眼花撩亂。這篇用買車的邏輯教你怎麼從大小、速度、品質三個維度選到適合你的 AI 模型。
#llm #模型選擇 #ollama #入門
2026-04-105m
[LLM 101] 什麼是量化？Q4、Q8、FP16 到底差在哪
Q4_K_M、Q8_0、FP16 — 同一個模型有十幾種版本，名字看起來像亂碼。這篇告訴你量化到底在做什麼、為什麼不會把模型搞壞、以及你該下載哪一個版本。
#llm #量化 #ollama #入門
2026-04-092m
[AI 怎麼問] 打開 AI 之後，你的第一句話該怎麼說？
AI 不是 Google，你不是在搜尋，你在對話。這篇教你打開 ChatGPT 之後該怎麼開口、五個立刻能試的任務、和回答不滿意時怎麼調整。
#ai #chatgpt #入門 #對話技巧
2026-04-093m
[AI 怎麼問] 2026 年，你可以用的 AI 有哪些？
ChatGPT、Claude、Gemini — 三個你現在就能用的 AI 助手。這篇用最白話的方式介紹它們各自的強項、價錢、和怎麼開始，幫你選到適合自己的那一個。
#ai #chatgpt #claude #gemini
2026-04-085m
[Benchmark] 拯救 Gemma 4 31B：在 32GB MacBook Pro 上從 1.5 加速到 12.8 tok/s
Gemma 4 31B 在 MBP M1 Max 上用 Ollama 只有 1.5 tok/s（swap）。解法：降 context window（9 tok/s）或用 oMLX（12.8 tok/s）。真正的兇手是 KV cache 分配，不是模型大小。
#gemma-4 #31b #m1-max #ollama
2026-04-086m
[Benchmark] 4 台機器、4 個模型、1 個答案：記憶體決定一切
Gemma 4 E2B 到 31B 在 RTX 5090、M1 Max、DGX Spark、M4 上用 Ollama 完整測試。E2B 在 5090 上 310 tok/s。31B 在 MBP 上 1.5 tok/s — swap 殺死一切。記憶體容量 > 頻寬速度。
#gemma-4 #rtx-5090 #dgx-spark #gb10
2026-04-084m
[LLM 101] Dense、MoE、PLE、SSM — 四種 AI 模型架構，一次搞懂
Dense 是全員出動，MoE 是專家輪班，PLE 是每層樓有自己的櫃台，SSM 是速讀高手。用零技術門檻解釋四種主流 AI 模型架構的差別，幫你看懂規格表。
#dense #moe #ple #ssm
2026-04-075m
[Benchmark] Gemma 4 E2B vs E4B：三台機器實測，記憶體頻寬決定一切
Gemma 4 E2B 在 M1 Max 跑到 81 tok/s，比 E4B 快 44-82%。三台機器、相同方法論、每輪獨立 prompt，排除 Ollama 快取干擾後的真實數據。
#gemma-4 #e2b #e4b #ollama
2026-04-076m
[Benchmark] 從 19 到 50 tok/s：我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化
Gemma 4 E4B NVFP4A16 在 DGX Spark 上跑 49.9 tok/s — 比 BF16 快 2.6 倍。HuggingFace 上第一個 NVFP4 checkpoint。PLE 架構解析、FP8 vs NVFP4、以及差點讓我們放棄的 llm-compressor 版本地獄。
#gemma-4 #e4b #nvfp4 #fp8
2026-04-073m
[LLM 101] Ollama vs vLLM：在自己電腦跑 AI 的兩條路
Ollama 像微波爐，vLLM 像專業烤箱。兩個都能在你的電腦上跑 AI 模型，但適合的場景完全不同。這篇用零技術門檻的方式解釋差別、優缺點、和怎麼選。
#ollama #vllm #llm #本地部署
2026-04-055m
[vLLM] Gemma 4 26B-A4B NVFP4 跑在 DGX Spark：52 tok/s，模型只佔 16 GB
在 GB10 上用 vLLM 0.19 部署 Gemma 4 26B-A4B MoE NVFP4 — 52 tok/s decode、16.5 GB 模型、82 GB KV cache 可用。包含 Phase 0 決策過程和完整踩坑記錄。
#gemma-4 #nvfp4 #vllm #dgx-spark
2026-04-053m
[Benchmark] Gemma 4 31B Dense 跑在 DGX Spark：7 tok/s 和頻寬之牆
Gemma 4 31B-IT NVFP4 在 GB10 上只有 7.0 tok/s — 273 GB/s 頻寬是天花板。算術預測 4.4 tok/s，NVFP4 壓縮多了 60% 但逃不出牆。請選 MoE。
#gemma-4 #nvfp4 #vllm #dgx-spark
2026-04-054m
[Benchmark] 同模型 vLLM vs Ollama：為什麼 GB10 上差 30%
同一個 Gemma 4 26B-A4B、同一張 GPU，vLLM NVFP4 跑 52 tok/s，Ollama Q4_K_M 只有 40。根因：Marlin kernel、CUDA graphs，以及 Ollama 靜默的 CPU/GPU split 陷阱。
#vllm #ollama #benchmark #dgx-spark
2026-04-023m
[DGX Spark] 過熱、100W 功耗上限、30W 安全模式 — 完整診斷指南
DGX Spark 的供電和過熱問題在 Carmack 批評後引爆社群。這篇整理三種不同症狀的診斷方法：30W PD controller 缺陷（需 RMA）、100W 功耗上限（散熱降頻）、5W driver bug（可修）。一個指令 30 秒確認。
#gx10 #gb10 #dgx-spark #power-delivery
2026-03-304m
[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？
Google TurboQuant 在 GX10 (GB10/SM121) 上的實測數據 — 3-bit KV cache 壓縮的真實壓縮率、Qwen2.5-3B 精度驗證、以及 Qwen3.5-35B 的 hybrid attention 架構為什麼讓事情變得複雜。
#turboquant #kv-cache #quantization #vllm
2026-03-243m
[AI Agent] NemoClaw 不靠雲端：把 Nemotron 換成本地 Ollama 模型
怎麼把 NemoClaw 的推理後端指向本地 Ollama 或 vLLM endpoint。Config 位置、模型替換，以及雲端消失後 OpenShell 仍然在做什麼。
#nemoclaw #openclaw #openshell #ollama
2026-03-242m
[AI Agent] openclaw + ChatGPT OAuth：不買 API 額度也能用 GPT-5.4
openclaw 2026.3.13 加入了 OpenAI OAuth 登入。一行指令讓你的 agent 用 ChatGPT Plus 訂閱取得 GPT-5.4 的 100 萬 token context，不需要另外買 API credits。
#openclaw #gpt-5.4 #chatgpt #oauth
2026-03-234m
NemoClaw 安裝踩坑：官方文件沒寫的 4 個必修修正
NemoClaw 在 DGX Spark 上直接裝會失敗。這篇整理了 4 個官方文件沒提的修正（Node 升級、npm link、OpenShell tar.gz、cgroupns），30 分鐘跑起第一個 AI Agent。
#nemoclaw #openclaw #openshell #ai-agent
2026-03-232m
NemoClaw 是什麼？NVIDIA 一鍵 AI Agent 框架完整解析
NemoClaw = OpenClaw + OpenShell + NVIDIA Agent Toolkit 三合一。這篇講清楚它解決什麼問題、架構怎麼運作、值不值得在 DGX Spark 上裝。
#nemoclaw #openclaw #openshell #ai-agent
2026-03-214m
[Claude Code] claude-agent-sdk vs subprocess：中間 Turn 為什麼消失了
用 claude -p subprocess 建 multi-agent orchestrator，發現中間 turn 全被靜默丟棄。SDK 遷移、session resume、並行執行、以及 setting_sources 的影響。
#claude-code #claude-agent-sdk #multi-agent #orchestrator
2026-03-213m
[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈
vLLM serve script 加了 --kv-cache-dtype fp8，GB10 上輸出在約 500 token 後退化成重複字。根本原因：沒有 calibration data，q_scale 預設 1.0。
#vllm #fp8 #kv-cache #gb10
2026-03-213m
[AI Agent] openclaw 接上 131K Context：max_tokens 變負數的那一刻
openclaw 串接 gpt-oss-120B，第一條訊息就收到 400 max_tokens must be at least 1, got -1292。Context budget 的數學、config key 的坑、以及修法。
#openclaw #context-window #vllm #gpt-oss
2026-03-213m
[AI Agent] openclaw 用 Telegram Bot API 9.5 sendMessageDraft 做即時串流
把 editMessageText 輪詢換成 sendMessageDraft，實現真正的動態串流輸出。patch 方式、thinking block 過濾、以及私訊裡的 optional chaining 坑。
#openclaw #telegram #streaming #bot-api
2026-03-195m
[AI Agent] openclaw：Bot 突然消失了 — Tailscale、IPv6、和一個 Node.js 的安靜陷阱
Bot process 跑著、token 有效、訊息有收到。但沒有任何回應。四個錯誤假設、一張路由表，還有一個大多數人不知道的 Node.js 行為。
#node.js #tailscale #ipv6 #undici
2026-03-196m
[vLLM] 在 DGX Spark 上跑 120B 模型到 60 tok/s——零 API 成本、六個坑
怎麼讓 gpt-oss-120B 在 DGX Spark（GB10、SM121）上以 vLLM 跑到 60 tok/s。目標是讓 openclaw agent 用本地 120B 模型，零 API 費用。路上有六個坑，其中一個靜默失效的環境變數比其他五個加起來還難找。
#dgx-spark #sm121 #vllm #gpt-oss
2026-03-192m
[vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。
修完四個 SM121 NVFP4 bug 之後，Qwen3.5-122B 能跑、輸出正確。然後你看了速度：14 tok/s。沒有 flag 能修它。為什麼——以及在等什麼。
#dgx-spark #sm121 #qwen3.5-122b #vllm
2026-03-182m
[AI Agent] openclaw：Agent 卡住的時候，叫 CLI 來幫
怎麼在本地 agent loop 裡掛上 callhelp tool，讓它在推理途中 spawn Codex CLI。一個必設的 permission flag，還有為什麼 Claude quota 是我自己的。
#ai-agent #openclaw #codex #llm
2026-03-175m
[vLLM] 為什麼你的 DGX Spark 只會輸出「!!!!!」：SM121 上的 NVFP4 除錯記錄
CUTLASS FP4 kernel 是針對 SM120（GB200）編譯的。在 SM121（GB10，DGX Spark）上它會靜默執行，但輸出垃圾。完整除錯過程——4 個 bug、row-identical 失敗特徵，以及有效的修正方案。
#dgx-spark #sm121 #vllm #nvfp4
2026-03-163m
[AI Agent] Codex-Executor 模式：讓 Agent Session 保持輕量
為什麼我們停止讓 OpenClaw agent 直接編排多步驟任務，改成派生 Codex subprocess。這個模式讓 agent context 保持輕量、任務執行更可靠。
#ai-agent #claude-code #codex #agent-architecture
2026-03-135m
[vLLM] 單顆 GB10 跑 Nemotron-3-Super-120B：一天的除錯記錄
在 ASUS GX10（SM121，128GB）上跑 NVIDIA Nemotron-3-Super-120B-NVFP4。四個 SM121 專屬坑、一個沒有任何作用的環境變數，以及最終可用的 docker 指令。
#dgx-spark #gb10 #sm121 #nemotron
2026-03-073m
[vLLM] Ollama 的 KEEP_ALIVE 在偷吃你的 vLLM 記憶體空間
128GB 統一記憶體的機器 vLLM 重啟時 OOM。原因：Ollama KEEP_ALIVE=2h 把 19-51GB 壓在 GPU 上。診斷指令、手動 unload 方式、以及為什麼要把 KEEP_ALIVE 改成 0。
#vllm #ollama #gpu-memory #dgx-spark
2026-03-063m
[vLLM] SSM 模型不能加 --enable-chunked-prefill
把 --enable-chunked-prefill 加到 Qwen3.5-35B（SSM+MoE hybrid）上，吞吐量從 47 tok/s 掉到 5.7 tok/s。解釋為什麼 SSM 遞迴架構和 chunked prefill 根本不相容。
#vllm #ssm #qwen #dgx-spark
2026-03-057m
[vLLM] Qwen3.5-35B 跑到 47 tok/s：從 Ollama 遷移到 vLLM
TTFT 從幾秒降到 0.12s。DGX Spark GB10 上 Qwen3.5-35B 從 Ollama 換到 vLLM 的實戰筆記，含六個坑：SSM + chunked prefill 陷阱、記憶體衝突、docker 重啟順序。
#dgx-spark #gb10 #vllm #ollama
2026-03-054m
[AI Agent] 零 API 成本：用 DGX Spark + Mac Mini 跑 OpenClaw
完整的本地 AI Agent 架構：Mac Mini M4 當長駐 gateway，GX10 跑推理，Telegram 當介面。不需要訂閱，不需要雲端 API。六個部署心得。
#openclaw #ai-agent #dgx-spark #mac-mini
2026-03-014m
[Benchmark] 純 MoE vs SSM Hybrid：Context Decay 與為什麼 Agent 要在乎
GLM-4.7-Flash 短 context 57.8 tok/s，但 8K 時掉到 42 tok/s。Qwen3.5-35B SSM hybrid：短 56 tok/s，8K 仍 56 tok/s。為什麼有長 system prompt 的 agent 應該在乎這個差距。
#benchmark #ssm #moe #dgx-spark
2026-02-262m
[Dev Workflow] 讓兩個 AI 吵架。它們不同意的地方才是重點。
一個 /debate 指令讓 Codex CLI 和 Gemini CLI 對同一份程式碼互相辯論。訓練資料不同、盲點不同——它們的分歧通常是最有用的輸出。
#dev-workflow #claude-code #gemini #codex
2026-02-263m
[Claude Code] 用 Claude Code 測 iOS App：context 用量砍 81%
把截圖導向的 iOS 測試改成 ui_describe_all 優先，BPS Tracker 測試的 context 用量從 81,290 KB 降到 15,215 KB。外加 Fastlane 整合：截圖、App Store 上傳全自動。
#claude-code #ios #swift #testing
2026-02-253m
[AI Agent] OpenClaw Config 熱重載：不需要重啟
花了好幾週每次改設定都重啟 gateway。後來才發現有 file watcher。哪些東西可以立即熱重載、哪些還是要重啟、還有怎麼區分 auth 失敗和短暫網路錯誤。
#ai-agent #openclaw #configuration #developer-workflow
2026-02-193m
[Claude Code] 我寫了 MANDATORY。AI 還是沒跑。
設定檔裡標了 MANDATORY 的規則，同一個 session 裡被跳過了兩次。這篇解釋三個架構原因為什麼強調沒用，以及三個真正有效的系統設計解法。
#claude-code #ai-agents #prompt-engineering #systems-design
2026-02-194m
[Benchmark] DGX Spark 跑 8 個模型：找出最適合 AI Agent 的組合
在 NVIDIA GB10（128GB 統一記憶體）上，用 7 個任務類別評測 8 個本地 LLM。量化的意外結論、一個連 JSON 都出錯的 120B 模型，以及把整個 token budget 用來思考的 thinking model。
#dgx-spark #gb10 #ollama #benchmark

showing 75 篇文章