ai-muninn 技術筆記

ai-muninn 技術筆記 https://ai-muninn.com/zh-TW/blog AI 推理基礎設施踩坑記錄：DGX Spark、vLLM、本地 AI Agent。 Wed, 08 Apr 2026 23:24:40 GMT https://validator.w3.org/feed/docs/rss2.html https://github.com/jpmonette/feed zh-TW 2026 coolthor <![CDATA[[AI 怎麼問] 打開 AI 之後，你的第一句話該怎麼說？]]> https://ai-muninn.com/zh-TW/blog/ai-ask-right-first-message https://ai-muninn.com/zh-TW/blog/ai-ask-right-first-message Thu, 09 Apr 2026 00:00:00 GMT AI ChatGPT 入門對話技巧 <![CDATA[[AI 怎麼問] 2026 年，你可以用的 AI 有哪些？]]> https://ai-muninn.com/zh-TW/blog/ai-ask-right-which-ai-to-use-2026 https://ai-muninn.com/zh-TW/blog/ai-ask-right-which-ai-to-use-2026 Thu, 09 Apr 2026 00:00:00 GMT AI ChatGPT Claude Gemini 入門 <![CDATA[[Benchmark] 拯救 Gemma 4 31B：在 32GB MacBook Pro 上從 1.5 加速到 12.8 tok/s]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-rescue-mbp-32gb https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-rescue-mbp-32gb Wed, 08 Apr 2026 00:00:00 GMT Gemma 4 31B M1 Max Ollama oMLX swap KV cache TurboQuant Apple Silicon memory management <![CDATA[[Benchmark] 4 台機器、4 個模型、1 個答案：記憶體決定一切]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-4-machines-4-models-bandwidth https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-4-machines-4-models-bandwidth Wed, 08 Apr 2026 00:00:00 GMT 頻寬速度。]]> Gemma 4 RTX 5090 DGX Spark GB10 M1 Max M4 Ollama benchmark memory bandwidth swap E2B E4B 26B 31B <![CDATA[[LLM 101] Dense、MoE、PLE、SSM — 四種 AI 模型架構，一次搞懂]]> https://ai-muninn.com/zh-TW/blog/llm-101-dense-moe-ple-ssm-architectures https://ai-muninn.com/zh-TW/blog/llm-101-dense-moe-ple-ssm-architectures Wed, 08 Apr 2026 00:00:00 GMT Dense MoE PLE SSM Mamba LLM 模型架構入門科普 <![CDATA[[Benchmark] Gemma 4 E2B vs E4B：三台機器實測，記憶體頻寬決定一切]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e2b-vs-e4b-ollama-3-machines https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e2b-vs-e4b-ollama-3-machines Tue, 07 Apr 2026 00:00:00 GMT Gemma 4 E2B E4B Ollama benchmark DGX Spark GB10 M1 Max M4 Apple Silicon 記憶體頻寬 <![CDATA[[Benchmark] 從 19 到 50 tok/s：我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e4b-nvfp4-50-toks https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-e4b-nvfp4-50-toks Tue, 07 Apr 2026 00:00:00 GMT Gemma 4 E4B NVFP4 FP8 vLLM DGX Spark GB10 quantization llm-compressor PLE HuggingFace <![CDATA[[LLM 101] Ollama vs vLLM：在自己電腦跑 AI 的兩條路]]> https://ai-muninn.com/zh-TW/blog/llm-101-ollama-vs-vllm https://ai-muninn.com/zh-TW/blog/llm-101-ollama-vs-vllm Tue, 07 Apr 2026 00:00:00 GMT Ollama vLLM LLM 本地部署入門科普 <![CDATA[[vLLM] Gemma 4 26B-A4B NVFP4 跑在 DGX Spark：52 tok/s，模型只佔 16 GB]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-26b-nvfp4-52-toks https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-26b-nvfp4-52-toks Sun, 05 Apr 2026 00:00:00 GMT Gemma 4 NVFP4 vLLM DGX Spark GB10 SM121 MoE benchmark <![CDATA[[Benchmark] Gemma 4 31B Dense 跑在 DGX Spark：7 tok/s 和頻寬之牆]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-dense-7-toks https://ai-muninn.com/zh-TW/blog/dgx-spark-gemma4-31b-dense-7-toks Sun, 05 Apr 2026 00:00:00 GMT Gemma 4 NVFP4 vLLM DGX Spark GB10 SM121 dense benchmark bandwidth <![CDATA[[Benchmark] 同模型 vLLM vs Ollama：為什麼 GB10 上差 30%]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-vs-ollama-same-model https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-vs-ollama-same-model Sun, 05 Apr 2026 00:00:00 GMT vLLM Ollama benchmark DGX Spark GB10 Gemma 4 NVFP4 inference <![CDATA[[vLLM] GX10 供電問題：那個 30W 安全模式，韌體救不了你]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-30w-power-safety-mode https://ai-muninn.com/zh-TW/blog/dgx-spark-30w-power-safety-mode Thu, 02 Apr 2026 00:00:00 GMT GX10 GB10 DGX Spark power delivery vLLM hardware <![CDATA[[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？]]> https://ai-muninn.com/zh-TW/blog/turboquant-kv-cache-benchmark-gx10 https://ai-muninn.com/zh-TW/blog/turboquant-kv-cache-benchmark-gx10 Mon, 30 Mar 2026 00:00:00 GMT TurboQuant KV Cache Quantization vLLM Benchmark Qwen3.5 GX10 SM121 <![CDATA[[AI Agent] NemoClaw 不靠雲端：把 Nemotron 換成本地 Ollama 模型]]> https://ai-muninn.com/zh-TW/blog/nemoclaw-local-inference-ollama https://ai-muninn.com/zh-TW/blog/nemoclaw-local-inference-ollama Tue, 24 Mar 2026 00:00:00 GMT NemoClaw OpenClaw OpenShell Ollama vLLM AI Agent NVIDIA GX10 Local Inference <![CDATA[[AI Agent] openclaw + ChatGPT OAuth：不買 API 額度也能用 GPT-5.4]]> https://ai-muninn.com/zh-TW/blog/openclaw-chatgpt-oauth-gpt54-no-api-key https://ai-muninn.com/zh-TW/blog/openclaw-chatgpt-oauth-gpt54-no-api-key Tue, 24 Mar 2026 00:00:00 GMT openclaw GPT-5.4 ChatGPT OAuth AI agent <![CDATA[NemoClaw 安裝踩坑：官方文件沒寫的 4 個必修修正]]> https://ai-muninn.com/zh-TW/blog/nemoclaw-install-gx10-from-scratch https://ai-muninn.com/zh-TW/blog/nemoclaw-install-gx10-from-scratch Mon, 23 Mar 2026 00:00:00 GMT NemoClaw OpenClaw OpenShell AI Agent NVIDIA DGX Spark GX10 GB10 <![CDATA[NemoClaw 是什麼？NVIDIA 一鍵 AI Agent 框架完整解析]]> https://ai-muninn.com/zh-TW/blog/nemoclaw-what-it-is-why-it-exists https://ai-muninn.com/zh-TW/blog/nemoclaw-what-it-is-why-it-exists Mon, 23 Mar 2026 00:00:00 GMT NemoClaw OpenClaw OpenShell AI Agent NVIDIA DGX Spark GX10 <![CDATA[[Claude Code] claude-agent-sdk vs subprocess：中間 Turn 為什麼消失了]]> https://ai-muninn.com/zh-TW/blog/claude-code-agent-sdk-orchestrator https://ai-muninn.com/zh-TW/blog/claude-code-agent-sdk-orchestrator Sat, 21 Mar 2026 00:00:00 GMT Claude Code claude-agent-sdk multi-agent orchestrator Python asyncio <![CDATA[[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-fp8-kvcache-repetition https://ai-muninn.com/zh-TW/blog/dgx-spark-fp8-kvcache-repetition Sat, 21 Mar 2026 00:00:00 GMT vLLM FP8 KV cache GB10 DGX Spark quantization SM121 <![CDATA[[AI Agent] openclaw 接上 131K Context：max_tokens 變負數的那一刻]]> https://ai-muninn.com/zh-TW/blog/openclaw-context-budget-negative-maxtokens https://ai-muninn.com/zh-TW/blog/openclaw-context-budget-negative-maxtokens Sat, 21 Mar 2026 00:00:00 GMT openclaw context window vLLM gpt-oss configuration <![CDATA[[AI Agent] openclaw 用 Telegram Bot API 9.5 sendMessageDraft 做即時串流]]> https://ai-muninn.com/zh-TW/blog/openclaw-telegram-sendmessagedraft-streaming https://ai-muninn.com/zh-TW/blog/openclaw-telegram-sendmessagedraft-streaming Sat, 21 Mar 2026 00:00:00 GMT openclaw Telegram streaming Bot API GLM <![CDATA[[AI Agent] openclaw：Bot 突然消失了 — Tailscale、IPv6、和一個 Node.js 的安靜陷阱]]> https://ai-muninn.com/zh-TW/blog/openclaw-telegram-ipv6-tailscale-silent-bot https://ai-muninn.com/zh-TW/blog/openclaw-telegram-ipv6-tailscale-silent-bot Thu, 19 Mar 2026 00:00:00 GMT Node.js Tailscale IPv6 undici Happy Eyeballs Telegram Debugging Networking <![CDATA[[vLLM] 在 DGX Spark 上跑 120B 模型到 60 tok/s——零 API 成本、六個坑]]> https://ai-muninn.com/zh-TW/blog/part2-gpt-oss-120b-serve-script https://ai-muninn.com/zh-TW/blog/part2-gpt-oss-120b-serve-script Thu, 19 Mar 2026 00:00:00 GMT DGX Spark SM121 vLLM gpt-oss MXFP4 Blackwell LLM Serving <![CDATA[[vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。]]> https://ai-muninn.com/zh-TW/blog/part2-qwen-122b-14-toks-gdn-kernel-gap https://ai-muninn.com/zh-TW/blog/part2-qwen-122b-14-toks-gdn-kernel-gap Thu, 19 Mar 2026 00:00:00 GMT DGX Spark SM121 Qwen3.5-122B vLLM NVFP4 Marlin GDN LLM Serving <![CDATA[[AI Agent] openclaw：Agent 卡住的時候，叫 CLI 來幫]]> https://ai-muninn.com/zh-TW/blog/openclaw-callhelp-spawning-cli-from-agent-loop https://ai-muninn.com/zh-TW/blog/openclaw-callhelp-spawning-cli-from-agent-loop Wed, 18 Mar 2026 00:00:00 GMT AI Agent openclaw Codex LLM Agent Tools Local AI <![CDATA[[vLLM] 為什麼你的 DGX Spark 只會輸出「!!!!!」：SM121 上的 NVFP4 除錯記錄]]> https://ai-muninn.com/zh-TW/blog/part1-why-your-dgx-spark-says-exclamation-marks https://ai-muninn.com/zh-TW/blog/part1-why-your-dgx-spark-says-exclamation-marks Tue, 17 Mar 2026 00:00:00 GMT DGX Spark SM121 vLLM NVFP4 MXFP4 Blackwell CUDA LLM Serving <![CDATA[[AI Agent] Codex-Executor 模式：讓 Agent Session 保持輕量]]> https://ai-muninn.com/zh-TW/blog/openclaw-codex-executor-agent-architecture https://ai-muninn.com/zh-TW/blog/openclaw-codex-executor-agent-architecture Mon, 16 Mar 2026 00:00:00 GMT AI Agent Claude Code Codex Agent Architecture OpenClaw <![CDATA[[vLLM] 單顆 GB10 跑 Nemotron-3-Super-120B：一天的除錯記錄]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-nemotron-120b-vllm https://ai-muninn.com/zh-TW/blog/dgx-spark-nemotron-120b-vllm Fri, 13 Mar 2026 00:00:00 GMT DGX Spark GB10 SM121 Nemotron vLLM NVFP4 Blackwell LLM Serving <![CDATA[[vLLM] Ollama 的 KEEP_ALIVE 在偷吃你的 vLLM 記憶體空間]]> https://ai-muninn.com/zh-TW/blog/openclaw-ollama-vllm-gpu-conflict https://ai-muninn.com/zh-TW/blog/openclaw-ollama-vllm-gpu-conflict Sat, 07 Mar 2026 00:00:00 GMT vLLM Ollama GPU Memory DGX Spark GB10 LLM Serving <![CDATA[[vLLM] SSM 模型不能加 --enable-chunked-prefill]]> https://ai-muninn.com/zh-TW/blog/openclaw-chunked-prefill-ssm-trap https://ai-muninn.com/zh-TW/blog/openclaw-chunked-prefill-ssm-trap Fri, 06 Mar 2026 00:00:00 GMT vLLM SSM Qwen DGX Spark LLM Serving Performance <![CDATA[[vLLM] Qwen3.5-35B 跑到 47 tok/s：從 Ollama 遷移到 vLLM]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-qwen35-setup https://ai-muninn.com/zh-TW/blog/dgx-spark-vllm-qwen35-setup Thu, 05 Mar 2026 00:00:00 GMT DGX Spark GB10 vLLM Ollama Qwen3.5 Docker Blackwell AI Agent <![CDATA[[AI Agent] 零 API 成本：用 DGX Spark + Mac Mini 跑 OpenClaw]]> https://ai-muninn.com/zh-TW/blog/openclaw-dgx-spark-local-ai-agent https://ai-muninn.com/zh-TW/blog/openclaw-dgx-spark-local-ai-agent Thu, 05 Mar 2026 00:00:00 GMT OpenClaw AI Agent DGX Spark Mac Mini Self-Hosted Ollama SearXNG <![CDATA[[Benchmark] 純 MoE vs SSM Hybrid：Context Decay 與為什麼 Agent 要在乎]]> https://ai-muninn.com/zh-TW/blog/openclaw-moe-ssm-context-decay https://ai-muninn.com/zh-TW/blog/openclaw-moe-ssm-context-decay Sun, 01 Mar 2026 00:00:00 GMT Benchmark SSM MoE DGX Spark GB10 LLM Serving AI Agents <![CDATA[[Dev Workflow] 讓兩個 AI 吵架。它們不同意的地方才是重點。]]> https://ai-muninn.com/zh-TW/blog/claude-code-debate-system https://ai-muninn.com/zh-TW/blog/claude-code-debate-system Thu, 26 Feb 2026 00:00:00 GMT Dev Workflow Claude Code Gemini Codex Multi-AI Code Review <![CDATA[[Claude Code] 用 Claude Code 測 iOS App：context 用量砍 81%]]> https://ai-muninn.com/zh-TW/blog/claude-code-ios-testing-bpstracker https://ai-muninn.com/zh-TW/blog/claude-code-ios-testing-bpstracker Thu, 26 Feb 2026 00:00:00 GMT Claude Code iOS Swift Testing Fastlane BPS Tracker <![CDATA[[AI Agent] OpenClaw Config 熱重載：不需要重啟]]> https://ai-muninn.com/zh-TW/blog/openclaw-config-hot-reload https://ai-muninn.com/zh-TW/blog/openclaw-config-hot-reload Wed, 25 Feb 2026 00:00:00 GMT AI Agent OpenClaw Configuration Developer Workflow <![CDATA[[Claude Code] 我寫了 MANDATORY。AI 還是沒跑。]]> https://ai-muninn.com/zh-TW/blog/claude-code-mandatory-instructions https://ai-muninn.com/zh-TW/blog/claude-code-mandatory-instructions Thu, 19 Feb 2026 00:00:00 GMT Claude Code AI Agents Prompt Engineering Systems Design Developer Workflow <![CDATA[[Benchmark] DGX Spark 跑 8 個模型：找出最適合 AI Agent 的組合]]> https://ai-muninn.com/zh-TW/blog/dgx-spark-ollama-benchmark-8-models https://ai-muninn.com/zh-TW/blog/dgx-spark-ollama-benchmark-8-models Thu, 19 Feb 2026 00:00:00 GMT DGX Spark GB10 Ollama Benchmark LLM AI Agent Blackwell