<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
    <channel>
        <title>ai-muninn 技術筆記</title>
        <link>https://ai-muninn.com/zh-TW/blog</link>
        <description>AI 推理基礎設施踩坑記錄：DGX Spark、vLLM、本地 AI Agent。</description>
        <lastBuildDate>Wed, 08 Apr 2026 23:24:40 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <language>zh-TW</language>
        <copyright>2026 coolthor</copyright>
        <item>
            <title><![CDATA[[AI 怎麼問] 打開 AI 之後，你的第一句話該怎麼說？]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/ai-ask-right-first-message</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/ai-ask-right-first-message</guid>
            <pubDate>Thu, 09 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[AI 不是 Google，你不是在搜尋，你在對話。這篇教你打開 ChatGPT 之後該怎麼開口、五個立刻能試的任務、和回答不滿意時怎麼調整。]]></description>
            <category>AI</category>
            <category>ChatGPT</category>
            <category>入門</category>
            <category>對話技巧</category>
        </item>
        <item>
            <title><![CDATA[[AI 怎麼問] 2026 年，你可以用的 AI 有哪些？]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/ai-ask-right-which-ai-to-use-2026</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/ai-ask-right-which-ai-to-use-2026</guid>
            <pubDate>Thu, 09 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[ChatGPT、Claude、Gemini — 三個你現在就能用的 AI 助手。這篇用最白話的方式介紹它們各自的強項、價錢、和怎麼開始，幫你選到適合自己的那一個。]]></description>
            <category>AI</category>
            <category>ChatGPT</category>
            <category>Claude</category>
            <category>Gemini</category>
            <category>入門</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] 拯救 Gemma 4 31B：在 32GB MacBook Pro 上從 1.5 加速到 12.8 tok/s]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-rescue-mbp-32gb</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-rescue-mbp-32gb</guid>
            <pubDate>Wed, 08 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Gemma 4 31B 在 MBP M1 Max 上用 Ollama 只有 1.5 tok/s（swap）。解法：降 context window（9 tok/s）或用 oMLX（12.8 tok/s）。真正的兇手是 KV cache 分配，不是模型大小。]]></description>
            <category>Gemma 4</category>
            <category>31B</category>
            <category>M1 Max</category>
            <category>Ollama</category>
            <category>oMLX</category>
            <category>swap</category>
            <category>KV cache</category>
            <category>TurboQuant</category>
            <category>Apple Silicon</category>
            <category>memory management</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] 4 台機器、4 個模型、1 個答案：記憶體決定一切]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-4-machines-4-models-bandwidth</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-4-machines-4-models-bandwidth</guid>
            <pubDate>Wed, 08 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Gemma 4 E2B 到 31B 在 RTX 5090、M1 Max、DGX Spark、M4 上用 Ollama 完整測試。E2B 在 5090 上 310 tok/s。31B 在 MBP 上 1.5 tok/s — swap 殺死一切。記憶體容量 > 頻寬速度。]]></description>
            <category>Gemma 4</category>
            <category>RTX 5090</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>M1 Max</category>
            <category>M4</category>
            <category>Ollama</category>
            <category>benchmark</category>
            <category>memory bandwidth</category>
            <category>swap</category>
            <category>E2B</category>
            <category>E4B</category>
            <category>26B</category>
            <category>31B</category>
        </item>
        <item>
            <title><![CDATA[[LLM 101] Dense、MoE、PLE、SSM — 四種 AI 模型架構，一次搞懂]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/llm-101-dense-moe-ple-ssm-architectures</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/llm-101-dense-moe-ple-ssm-architectures</guid>
            <pubDate>Wed, 08 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Dense 是全員出動，MoE 是專家輪班，PLE 是每層樓有自己的櫃台，SSM 是速讀高手。用零技術門檻解釋四種主流 AI 模型架構的差別，幫你看懂規格表。]]></description>
            <category>Dense</category>
            <category>MoE</category>
            <category>PLE</category>
            <category>SSM</category>
            <category>Mamba</category>
            <category>LLM</category>
            <category>模型架構</category>
            <category>入門</category>
            <category>科普</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] Gemma 4 E2B vs E4B：三台機器實測，記憶體頻寬決定一切]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e2b-vs-e4b-ollama-3-machines</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e2b-vs-e4b-ollama-3-machines</guid>
            <pubDate>Tue, 07 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Gemma 4 E2B 在 M1 Max 跑到 81 tok/s，比 E4B 快 44-82%。三台機器、相同方法論、每輪獨立 prompt，排除 Ollama 快取干擾後的真實數據。]]></description>
            <category>Gemma 4</category>
            <category>E2B</category>
            <category>E4B</category>
            <category>Ollama</category>
            <category>benchmark</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>M1 Max</category>
            <category>M4</category>
            <category>Apple Silicon</category>
            <category>記憶體頻寬</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] 從 19 到 50 tok/s：我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e4b-nvfp4-50-toks</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e4b-nvfp4-50-toks</guid>
            <pubDate>Tue, 07 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Gemma 4 E4B NVFP4A16 在 DGX Spark 上跑 49.9 tok/s — 比 BF16 快 2.6 倍。HuggingFace 上第一個 NVFP4 checkpoint。PLE 架構解析、FP8 vs NVFP4、以及差點讓我們放棄的 llm-compressor 版本地獄。]]></description>
            <category>Gemma 4</category>
            <category>E4B</category>
            <category>NVFP4</category>
            <category>FP8</category>
            <category>vLLM</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>quantization</category>
            <category>llm-compressor</category>
            <category>PLE</category>
            <category>HuggingFace</category>
        </item>
        <item>
            <title><![CDATA[[LLM 101] Ollama vs vLLM：在自己電腦跑 AI 的兩條路]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/llm-101-ollama-vs-vllm</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/llm-101-ollama-vs-vllm</guid>
            <pubDate>Tue, 07 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Ollama 像微波爐，vLLM 像專業烤箱。兩個都能在你的電腦上跑 AI 模型，但適合的場景完全不同。這篇用零技術門檻的方式解釋差別、優缺點、和怎麼選。]]></description>
            <category>Ollama</category>
            <category>vLLM</category>
            <category>LLM</category>
            <category>本地部署</category>
            <category>入門</category>
            <category>科普</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] Gemma 4 26B-A4B NVFP4 跑在 DGX Spark：52 tok/s，模型只佔 16 GB]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-26b-nvfp4-52-toks</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-26b-nvfp4-52-toks</guid>
            <pubDate>Sun, 05 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[在 GB10 上用 vLLM 0.19 部署 Gemma 4 26B-A4B MoE NVFP4 — 52 tok/s decode、16.5 GB 模型、82 GB KV cache 可用。包含 Phase 0 決策過程和完整踩坑記錄。]]></description>
            <category>Gemma 4</category>
            <category>NVFP4</category>
            <category>vLLM</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>SM121</category>
            <category>MoE</category>
            <category>benchmark</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] Gemma 4 31B Dense 跑在 DGX Spark：7 tok/s 和頻寬之牆]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-dense-7-toks</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-dense-7-toks</guid>
            <pubDate>Sun, 05 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Gemma 4 31B-IT NVFP4 在 GB10 上只有 7.0 tok/s — 273 GB/s 頻寬是天花板。算術預測 4.4 tok/s，NVFP4 壓縮多了 60% 但逃不出牆。請選 MoE。]]></description>
            <category>Gemma 4</category>
            <category>NVFP4</category>
            <category>vLLM</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>SM121</category>
            <category>dense</category>
            <category>benchmark</category>
            <category>bandwidth</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] 同模型 vLLM vs Ollama：為什麼 GB10 上差 30%]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-vs-ollama-same-model</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-vs-ollama-same-model</guid>
            <pubDate>Sun, 05 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[同一個 Gemma 4 26B-A4B、同一張 GPU，vLLM NVFP4 跑 52 tok/s，Ollama Q4_K_M 只有 40。根因：Marlin kernel、CUDA graphs，以及 Ollama 靜默的 CPU/GPU split 陷阱。]]></description>
            <category>vLLM</category>
            <category>Ollama</category>
            <category>benchmark</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>Gemma 4</category>
            <category>NVFP4</category>
            <category>inference</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] GX10 供電問題：那個 30W 安全模式，韌體救不了你]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-30w-power-safety-mode</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-30w-power-safety-mode</guid>
            <pubDate>Thu, 02 Apr 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[部分 GX10 出廠就帶有 PD controller 缺陷，整台機器被永久鎖在 30W。一個指令診斷你有沒有中招，以及什麼時候應該放棄刷韌體直接申請 RMA。]]></description>
            <category>GX10</category>
            <category>GB10</category>
            <category>DGX Spark</category>
            <category>power delivery</category>
            <category>vLLM</category>
            <category>hardware</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/turboquant-kv-cache-benchmark-gx10</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/turboquant-kv-cache-benchmark-gx10</guid>
            <pubDate>Mon, 30 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Google TurboQuant 在 GX10 (GB10/SM121) 上的實測數據 — 3-bit KV cache 壓縮的真實壓縮率、Qwen2.5-3B 精度驗證、以及 Qwen3.5-35B 的 hybrid attention 架構為什麼讓事情變得複雜。]]></description>
            <category>TurboQuant</category>
            <category>KV Cache</category>
            <category>Quantization</category>
            <category>vLLM</category>
            <category>Benchmark</category>
            <category>Qwen3.5</category>
            <category>GX10</category>
            <category>SM121</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] NemoClaw 不靠雲端：把 Nemotron 換成本地 Ollama 模型]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/nemoclaw-local-inference-ollama</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/nemoclaw-local-inference-ollama</guid>
            <pubDate>Tue, 24 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[怎麼把 NemoClaw 的推理後端指向本地 Ollama 或 vLLM endpoint。Config 位置、模型替換，以及雲端消失後 OpenShell 仍然在做什麼。]]></description>
            <category>NemoClaw</category>
            <category>OpenClaw</category>
            <category>OpenShell</category>
            <category>Ollama</category>
            <category>vLLM</category>
            <category>AI Agent</category>
            <category>NVIDIA</category>
            <category>GX10</category>
            <category>Local Inference</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] openclaw + ChatGPT OAuth：不買 API 額度也能用 GPT-5.4]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-chatgpt-oauth-gpt54-no-api-key</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-chatgpt-oauth-gpt54-no-api-key</guid>
            <pubDate>Tue, 24 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[openclaw 2026.3.13 加入了 OpenAI OAuth 登入。一行指令讓你的 agent 用 ChatGPT Plus 訂閱取得 GPT-5.4 的 100 萬 token context，不需要另外買 API credits。]]></description>
            <category>openclaw</category>
            <category>GPT-5.4</category>
            <category>ChatGPT</category>
            <category>OAuth</category>
            <category>AI agent</category>
        </item>
        <item>
            <title><![CDATA[NemoClaw 安裝踩坑：官方文件沒寫的 4 個必修修正]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/nemoclaw-install-gx10-from-scratch</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/nemoclaw-install-gx10-from-scratch</guid>
            <pubDate>Mon, 23 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[NemoClaw 在 DGX Spark 上直接裝會失敗。這篇整理了 4 個官方文件沒提的修正（Node 升級、npm link、OpenShell tar.gz、cgroupns），30 分鐘跑起第一個 AI Agent。]]></description>
            <category>NemoClaw</category>
            <category>OpenClaw</category>
            <category>OpenShell</category>
            <category>AI Agent</category>
            <category>NVIDIA</category>
            <category>DGX Spark</category>
            <category>GX10</category>
            <category>GB10</category>
        </item>
        <item>
            <title><![CDATA[NemoClaw 是什麼？NVIDIA 一鍵 AI Agent 框架完整解析]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/nemoclaw-what-it-is-why-it-exists</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/nemoclaw-what-it-is-why-it-exists</guid>
            <pubDate>Mon, 23 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[NemoClaw = OpenClaw + OpenShell + NVIDIA Agent Toolkit 三合一。這篇講清楚它解決什麼問題、架構怎麼運作、值不值得在 DGX Spark 上裝。]]></description>
            <category>NemoClaw</category>
            <category>OpenClaw</category>
            <category>OpenShell</category>
            <category>AI Agent</category>
            <category>NVIDIA</category>
            <category>DGX Spark</category>
            <category>GX10</category>
        </item>
        <item>
            <title><![CDATA[[Claude Code] claude-agent-sdk vs subprocess：中間 Turn 為什麼消失了]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/claude-code-agent-sdk-orchestrator</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/claude-code-agent-sdk-orchestrator</guid>
            <pubDate>Sat, 21 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[用 claude -p subprocess 建 multi-agent orchestrator，發現中間 turn 全被靜默丟棄。SDK 遷移、session resume、並行執行、以及 setting_sources 的影響。]]></description>
            <category>Claude Code</category>
            <category>claude-agent-sdk</category>
            <category>multi-agent</category>
            <category>orchestrator</category>
            <category>Python</category>
            <category>asyncio</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-fp8-kvcache-repetition</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-fp8-kvcache-repetition</guid>
            <pubDate>Sat, 21 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[vLLM serve script 加了 --kv-cache-dtype fp8，GB10 上輸出在約 500 token 後退化成重複字。根本原因：沒有 calibration data，q_scale 預設 1.0。]]></description>
            <category>vLLM</category>
            <category>FP8</category>
            <category>KV cache</category>
            <category>GB10</category>
            <category>DGX Spark</category>
            <category>quantization</category>
            <category>SM121</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] openclaw 接上 131K Context：max_tokens 變負數的那一刻]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-context-budget-negative-maxtokens</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-context-budget-negative-maxtokens</guid>
            <pubDate>Sat, 21 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[openclaw 串接 gpt-oss-120B，第一條訊息就收到 400 max_tokens must be at least 1, got -1292。Context budget 的數學、config key 的坑、以及修法。]]></description>
            <category>openclaw</category>
            <category>context window</category>
            <category>vLLM</category>
            <category>gpt-oss</category>
            <category>configuration</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] openclaw 用 Telegram Bot API 9.5 sendMessageDraft 做即時串流]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-telegram-sendmessagedraft-streaming</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-telegram-sendmessagedraft-streaming</guid>
            <pubDate>Sat, 21 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[把 editMessageText 輪詢換成 sendMessageDraft，實現真正的動態串流輸出。patch 方式、thinking block 過濾、以及私訊裡的 optional chaining 坑。]]></description>
            <category>openclaw</category>
            <category>Telegram</category>
            <category>streaming</category>
            <category>Bot API</category>
            <category>GLM</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] openclaw：Bot 突然消失了 — Tailscale、IPv6、和一個 Node.js 的安靜陷阱]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-telegram-ipv6-tailscale-silent-bot</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-telegram-ipv6-tailscale-silent-bot</guid>
            <pubDate>Thu, 19 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[Bot process 跑著、token 有效、訊息有收到。但沒有任何回應。四個錯誤假設、一張路由表，還有一個大多數人不知道的 Node.js 行為。]]></description>
            <category>Node.js</category>
            <category>Tailscale</category>
            <category>IPv6</category>
            <category>undici</category>
            <category>Happy Eyeballs</category>
            <category>Telegram</category>
            <category>Debugging</category>
            <category>Networking</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] 在 DGX Spark 上跑 120B 模型到 60 tok/s——零 API 成本、六個坑]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/part2-gpt-oss-120b-serve-script</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/part2-gpt-oss-120b-serve-script</guid>
            <pubDate>Thu, 19 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[怎麼讓 gpt-oss-120B 在 DGX Spark（GB10、SM121）上以 vLLM 跑到 60 tok/s。目標是讓 openclaw agent 用本地 120B 模型，零 API 費用。路上有六個坑，其中一個靜默失效的環境變數比其他五個加起來還難找。]]></description>
            <category>DGX Spark</category>
            <category>SM121</category>
            <category>vLLM</category>
            <category>gpt-oss</category>
            <category>MXFP4</category>
            <category>Blackwell</category>
            <category>LLM Serving</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/part2-qwen-122b-14-toks-gdn-kernel-gap</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/part2-qwen-122b-14-toks-gdn-kernel-gap</guid>
            <pubDate>Thu, 19 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[修完四個 SM121 NVFP4 bug 之後，Qwen3.5-122B 能跑、輸出正確。然後你看了速度：14 tok/s。沒有 flag 能修它。為什麼——以及在等什麼。]]></description>
            <category>DGX Spark</category>
            <category>SM121</category>
            <category>Qwen3.5-122B</category>
            <category>vLLM</category>
            <category>NVFP4</category>
            <category>Marlin</category>
            <category>GDN</category>
            <category>LLM Serving</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] openclaw：Agent 卡住的時候，叫 CLI 來幫]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-callhelp-spawning-cli-from-agent-loop</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-callhelp-spawning-cli-from-agent-loop</guid>
            <pubDate>Wed, 18 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[怎麼在本地 agent loop 裡掛上 callhelp tool，讓它在推理途中 spawn Codex CLI。一個必設的 permission flag，還有為什麼 Claude quota 是我自己的。]]></description>
            <category>AI Agent</category>
            <category>openclaw</category>
            <category>Codex</category>
            <category>LLM</category>
            <category>Agent Tools</category>
            <category>Local AI</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] 為什麼你的 DGX Spark 只會輸出「!!!!!」：SM121 上的 NVFP4 除錯記錄]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/part1-why-your-dgx-spark-says-exclamation-marks</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/part1-why-your-dgx-spark-says-exclamation-marks</guid>
            <pubDate>Tue, 17 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[CUTLASS FP4 kernel 是針對 SM120（GB200）編譯的。在 SM121（GB10，DGX Spark）上它會靜默執行，但輸出垃圾。完整除錯過程——4 個 bug、row-identical 失敗特徵，以及有效的修正方案。]]></description>
            <category>DGX Spark</category>
            <category>SM121</category>
            <category>vLLM</category>
            <category>NVFP4</category>
            <category>MXFP4</category>
            <category>Blackwell</category>
            <category>CUDA</category>
            <category>LLM Serving</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] Codex-Executor 模式：讓 Agent Session 保持輕量]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-codex-executor-agent-architecture</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-codex-executor-agent-architecture</guid>
            <pubDate>Mon, 16 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[為什麼我們停止讓 OpenClaw agent 直接編排多步驟任務，改成派生 Codex subprocess。這個模式讓 agent context 保持輕量、任務執行更可靠。]]></description>
            <category>AI Agent</category>
            <category>Claude Code</category>
            <category>Codex</category>
            <category>Agent Architecture</category>
            <category>OpenClaw</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] 單顆 GB10 跑 Nemotron-3-Super-120B：一天的除錯記錄]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-nemotron-120b-vllm</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-nemotron-120b-vllm</guid>
            <pubDate>Fri, 13 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[在 ASUS GX10（SM121，128GB）上跑 NVIDIA Nemotron-3-Super-120B-NVFP4。四個 SM121 專屬坑、一個沒有任何作用的環境變數，以及最終可用的 docker 指令。]]></description>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>SM121</category>
            <category>Nemotron</category>
            <category>vLLM</category>
            <category>NVFP4</category>
            <category>Blackwell</category>
            <category>LLM Serving</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] Ollama 的 KEEP_ALIVE 在偷吃你的 vLLM 記憶體空間]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-ollama-vllm-gpu-conflict</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-ollama-vllm-gpu-conflict</guid>
            <pubDate>Sat, 07 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[128GB 統一記憶體的機器 vLLM 重啟時 OOM。原因：Ollama KEEP_ALIVE=2h 把 19-51GB 壓在 GPU 上。診斷指令、手動 unload 方式、以及為什麼要把 KEEP_ALIVE 改成 0。]]></description>
            <category>vLLM</category>
            <category>Ollama</category>
            <category>GPU Memory</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>LLM Serving</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] SSM 模型不能加 --enable-chunked-prefill]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-chunked-prefill-ssm-trap</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-chunked-prefill-ssm-trap</guid>
            <pubDate>Fri, 06 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[把 --enable-chunked-prefill 加到 Qwen3.5-35B（SSM+MoE hybrid）上，吞吐量從 47 tok/s 掉到 5.7 tok/s。解釋為什麼 SSM 遞迴架構和 chunked prefill 根本不相容。]]></description>
            <category>vLLM</category>
            <category>SSM</category>
            <category>Qwen</category>
            <category>DGX Spark</category>
            <category>LLM Serving</category>
            <category>Performance</category>
        </item>
        <item>
            <title><![CDATA[[vLLM] Qwen3.5-35B 跑到 47 tok/s：從 Ollama 遷移到 vLLM]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-qwen35-setup</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-qwen35-setup</guid>
            <pubDate>Thu, 05 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[TTFT 從幾秒降到 0.12s。DGX Spark GB10 上 Qwen3.5-35B 從 Ollama 換到 vLLM 的實戰筆記，含六個坑：SSM + chunked prefill 陷阱、記憶體衝突、docker 重啟順序。]]></description>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>vLLM</category>
            <category>Ollama</category>
            <category>Qwen3.5</category>
            <category>Docker</category>
            <category>Blackwell</category>
            <category>AI Agent</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] 零 API 成本：用 DGX Spark + Mac Mini 跑 OpenClaw]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-dgx-spark-local-ai-agent</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-dgx-spark-local-ai-agent</guid>
            <pubDate>Thu, 05 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[完整的本地 AI Agent 架構：Mac Mini M4 當長駐 gateway，GX10 跑推理，Telegram 當介面。不需要訂閱，不需要雲端 API。六個部署心得。]]></description>
            <category>OpenClaw</category>
            <category>AI Agent</category>
            <category>DGX Spark</category>
            <category>Mac Mini</category>
            <category>Self-Hosted</category>
            <category>Ollama</category>
            <category>SearXNG</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] 純 MoE vs SSM Hybrid：Context Decay 與為什麼 Agent 要在乎]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-moe-ssm-context-decay</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-moe-ssm-context-decay</guid>
            <pubDate>Sun, 01 Mar 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[GLM-4.7-Flash 短 context 57.8 tok/s，但 8K 時掉到 42 tok/s。Qwen3.5-35B SSM hybrid：短 56 tok/s，8K 仍 56 tok/s。為什麼有長 system prompt 的 agent 應該在乎這個差距。]]></description>
            <category>Benchmark</category>
            <category>SSM</category>
            <category>MoE</category>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>LLM Serving</category>
            <category>AI Agents</category>
        </item>
        <item>
            <title><![CDATA[[Dev Workflow] 讓兩個 AI 吵架。它們不同意的地方才是重點。]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/claude-code-debate-system</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/claude-code-debate-system</guid>
            <pubDate>Thu, 26 Feb 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[一個 /debate 指令讓 Codex CLI 和 Gemini CLI 對同一份程式碼互相辯論。訓練資料不同、盲點不同——它們的分歧通常是最有用的輸出。]]></description>
            <category>Dev Workflow</category>
            <category>Claude Code</category>
            <category>Gemini</category>
            <category>Codex</category>
            <category>Multi-AI</category>
            <category>Code Review</category>
        </item>
        <item>
            <title><![CDATA[[Claude Code] 用 Claude Code 測 iOS App：context 用量砍 81%]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/claude-code-ios-testing-bpstracker</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/claude-code-ios-testing-bpstracker</guid>
            <pubDate>Thu, 26 Feb 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[把截圖導向的 iOS 測試改成 ui_describe_all 優先，BPS Tracker 測試的 context 用量從 81,290 KB 降到 15,215 KB。外加 Fastlane 整合：截圖、App Store 上傳全自動。]]></description>
            <category>Claude Code</category>
            <category>iOS</category>
            <category>Swift</category>
            <category>Testing</category>
            <category>Fastlane</category>
            <category>BPS Tracker</category>
        </item>
        <item>
            <title><![CDATA[[AI Agent] OpenClaw Config 熱重載：不需要重啟]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/openclaw-config-hot-reload</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/openclaw-config-hot-reload</guid>
            <pubDate>Wed, 25 Feb 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[花了好幾週每次改設定都重啟 gateway。後來才發現有 file watcher。哪些東西可以立即熱重載、哪些還是要重啟、還有怎麼區分 auth 失敗和短暫網路錯誤。]]></description>
            <category>AI Agent</category>
            <category>OpenClaw</category>
            <category>Configuration</category>
            <category>Developer Workflow</category>
        </item>
        <item>
            <title><![CDATA[[Claude Code] 我寫了 MANDATORY。AI 還是沒跑。]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/claude-code-mandatory-instructions</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/claude-code-mandatory-instructions</guid>
            <pubDate>Thu, 19 Feb 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[設定檔裡標了 MANDATORY 的規則，同一個 session 裡被跳過了兩次。這篇解釋三個架構原因為什麼強調沒用，以及三個真正有效的系統設計解法。]]></description>
            <category>Claude Code</category>
            <category>AI Agents</category>
            <category>Prompt Engineering</category>
            <category>Systems Design</category>
            <category>Developer Workflow</category>
        </item>
        <item>
            <title><![CDATA[[Benchmark] DGX Spark 跑 8 個模型：找出最適合 AI Agent 的組合]]></title>
            <link>https://ai-muninn.com/zh-TW/blog/dgx-spark-ollama-benchmark-8-models</link>
            <guid isPermaLink="false">https://ai-muninn.com/zh-TW/blog/dgx-spark-ollama-benchmark-8-models</guid>
            <pubDate>Thu, 19 Feb 2026 00:00:00 GMT</pubDate>
            <description><![CDATA[在 NVIDIA GB10（128GB 統一記憶體）上，用 7 個任務類別評測 8 個本地 LLM。量化的意外結論、一個連 JSON 都出錯的 120B 模型，以及把整個 token budget 用來思考的 thinking model。]]></description>
            <category>DGX Spark</category>
            <category>GB10</category>
            <category>Ollama</category>
            <category>Benchmark</category>
            <category>LLM</category>
            <category>AI Agent</category>
            <category>Blackwell</category>
        </item>
    </channel>
</rss>