ai-muninn

ai-muninn https://ai-muninn.com/en/blog Notes on AI inference infrastructure: DGX Spark, vLLM, local AI agents. Wed, 08 Apr 2026 23:24:40 GMT https://validator.w3.org/feed/docs/rss2.html https://github.com/jpmonette/feed en 2026 coolthor <![CDATA[[Ask AI Right] You Opened AI — Now What Do You Say?]]> https://ai-muninn.com/en/blog/ai-ask-right-first-message https://ai-muninn.com/en/blog/ai-ask-right-first-message Thu, 09 Apr 2026 00:00:00 GMT AI ChatGPT Beginner Conversation <![CDATA[[Ask AI Right] Which AI Should You Use in 2026?]]> https://ai-muninn.com/en/blog/ai-ask-right-which-ai-to-use-2026 https://ai-muninn.com/en/blog/ai-ask-right-which-ai-to-use-2026 Thu, 09 Apr 2026 00:00:00 GMT AI ChatGPT Claude Gemini Beginner <![CDATA[[Benchmark] Rescuing Gemma 4 31B on a 32GB MacBook Pro: From 1.5 to 12.8 tok/s]]> https://ai-muninn.com/en/blog/dgx-spark-gemma4-31b-rescue-mbp-32gb https://ai-muninn.com/en/blog/dgx-spark-gemma4-31b-rescue-mbp-32gb Wed, 08 Apr 2026 00:00:00 GMT Gemma 4 31B M1 Max Ollama oMLX swap KV cache TurboQuant Apple Silicon memory management <![CDATA[[Benchmark] 4 Machines, 4 Models, 1 Answer: Memory Decides Everything]]> https://ai-muninn.com/en/blog/dgx-spark-gemma4-4-machines-4-models-bandwidth https://ai-muninn.com/en/blog/dgx-spark-gemma4-4-machines-4-models-bandwidth Wed, 08 Apr 2026 00:00:00 GMT bandwidth.]]> Gemma 4 RTX 5090 DGX Spark GB10 M1 Max M4 Ollama benchmark memory bandwidth swap E2B E4B 26B 31B <![CDATA[[LLM 101] Dense, MoE, PLE, SSM — Four AI Model Architectures Explained Simply]]> https://ai-muninn.com/en/blog/llm-101-dense-moe-ple-ssm-architectures https://ai-muninn.com/en/blog/llm-101-dense-moe-ple-ssm-architectures Wed, 08 Apr 2026 00:00:00 GMT Dense MoE PLE SSM Mamba LLM model architecture beginner explainer <![CDATA[[Benchmark] Gemma 4 E2B vs E4B: 81 tok/s vs 52 on Three Machines — Bandwidth Is Everything]]> https://ai-muninn.com/en/blog/dgx-spark-gemma4-e2b-vs-e4b-ollama-3-machines https://ai-muninn.com/en/blog/dgx-spark-gemma4-e2b-vs-e4b-ollama-3-machines Tue, 07 Apr 2026 00:00:00 GMT Gemma 4 E2B E4B Ollama benchmark DGX Spark GB10 M1 Max M4 Apple Silicon memory bandwidth <![CDATA[[Benchmark] From 19 to 50 tok/s: We Quantized Gemma 4 E4B to NVFP4 Before Anyone Else]]> https://ai-muninn.com/en/blog/dgx-spark-gemma4-e4b-nvfp4-50-toks https://ai-muninn.com/en/blog/dgx-spark-gemma4-e4b-nvfp4-50-toks Tue, 07 Apr 2026 00:00:00 GMT Gemma 4 E4B NVFP4 FP8 vLLM DGX Spark GB10 quantization llm-compressor PLE HuggingFace <![CDATA[[LLM 101] Ollama vs vLLM: Two Ways to Run AI on Your Own Computer]]> https://ai-muninn.com/en/blog/llm-101-ollama-vs-vllm https://ai-muninn.com/en/blog/llm-101-ollama-vs-vllm Tue, 07 Apr 2026 00:00:00 GMT Ollama vLLM LLM local AI beginner explainer <![CDATA[[vLLM] Gemma 4 26B-A4B NVFP4 on DGX Spark: 52 tok/s with 16 GB of Weights]]> https://ai-muninn.com/en/blog/dgx-spark-gemma4-26b-nvfp4-52-toks https://ai-muninn.com/en/blog/dgx-spark-gemma4-26b-nvfp4-52-toks Sun, 05 Apr 2026 00:00:00 GMT Gemma 4 NVFP4 vLLM DGX Spark GB10 SM121 MoE benchmark <![CDATA[[Benchmark] Gemma 4 31B Dense on DGX Spark: 7 tok/s and the Bandwidth Wall]]> https://ai-muninn.com/en/blog/dgx-spark-gemma4-31b-dense-7-toks https://ai-muninn.com/en/blog/dgx-spark-gemma4-31b-dense-7-toks Sun, 05 Apr 2026 00:00:00 GMT Gemma 4 NVFP4 vLLM DGX Spark GB10 SM121 dense benchmark bandwidth <![CDATA[[Benchmark] vLLM vs Ollama on the Same Model: Why 30% Faster on GB10]]> https://ai-muninn.com/en/blog/dgx-spark-vllm-vs-ollama-same-model https://ai-muninn.com/en/blog/dgx-spark-vllm-vs-ollama-same-model Sun, 05 Apr 2026 00:00:00 GMT vLLM Ollama benchmark DGX Spark GB10 Gemma 4 NVFP4 inference <![CDATA[[vLLM] GX10 Power Delivery: The 30W Safety Mode No Firmware Can Fix]]> https://ai-muninn.com/en/blog/dgx-spark-30w-power-safety-mode https://ai-muninn.com/en/blog/dgx-spark-30w-power-safety-mode Thu, 02 Apr 2026 00:00:00 GMT GX10 GB10 DGX Spark power delivery vLLM hardware <![CDATA[[Benchmark] TurboQuant on GX10: Is 3-bit KV Cache Compression Actually Lossless?]]> https://ai-muninn.com/en/blog/turboquant-kv-cache-benchmark-gx10 https://ai-muninn.com/en/blog/turboquant-kv-cache-benchmark-gx10 Mon, 30 Mar 2026 00:00:00 GMT TurboQuant KV Cache Quantization vLLM Benchmark Qwen3.5 GX10 SM121 <![CDATA[[AI Agent] NemoClaw Without the Cloud: Swapping Nemotron for a Local Ollama Model]]> https://ai-muninn.com/en/blog/nemoclaw-local-inference-ollama https://ai-muninn.com/en/blog/nemoclaw-local-inference-ollama Tue, 24 Mar 2026 00:00:00 GMT NemoClaw OpenClaw OpenShell Ollama vLLM AI Agent NVIDIA GX10 Local Inference <![CDATA[[AI Agent] openclaw + ChatGPT OAuth: GPT-5.4 Without Buying API Credits]]> https://ai-muninn.com/en/blog/openclaw-chatgpt-oauth-gpt54-no-api-key https://ai-muninn.com/en/blog/openclaw-chatgpt-oauth-gpt54-no-api-key Tue, 24 Mar 2026 00:00:00 GMT openclaw GPT-5.4 ChatGPT OAuth AI agent <![CDATA[NemoClaw on DGX Spark: 4 Fixes the Official Docs Don't Tell You]]> https://ai-muninn.com/en/blog/nemoclaw-install-gx10-from-scratch https://ai-muninn.com/en/blog/nemoclaw-install-gx10-from-scratch Mon, 23 Mar 2026 00:00:00 GMT NemoClaw OpenClaw OpenShell AI Agent NVIDIA DGX Spark GX10 GB10 <![CDATA[NemoClaw Explained: NVIDIA's All-in-One AI Agent Framework for DGX Spark]]> https://ai-muninn.com/en/blog/nemoclaw-what-it-is-why-it-exists https://ai-muninn.com/en/blog/nemoclaw-what-it-is-why-it-exists Mon, 23 Mar 2026 00:00:00 GMT NemoClaw OpenClaw OpenShell AI Agent NVIDIA DGX Spark GX10 <![CDATA[[Claude Code] claude-agent-sdk vs subprocess: Why Intermediate Turns Disappear]]> https://ai-muninn.com/en/blog/claude-code-agent-sdk-orchestrator https://ai-muninn.com/en/blog/claude-code-agent-sdk-orchestrator Sat, 21 Mar 2026 00:00:00 GMT Claude Code claude-agent-sdk multi-agent orchestrator Python asyncio <![CDATA[[vLLM] FP8 KV Cache on GB10: Why Outputs Collapse into Repetition Loops]]> https://ai-muninn.com/en/blog/dgx-spark-fp8-kvcache-repetition https://ai-muninn.com/en/blog/dgx-spark-fp8-kvcache-repetition Sat, 21 Mar 2026 00:00:00 GMT vLLM FP8 KV cache GB10 DGX Spark quantization SM121 <![CDATA[[AI Agent] openclaw + 131K Context: When max_tokens Goes Negative]]> https://ai-muninn.com/en/blog/openclaw-context-budget-negative-maxtokens https://ai-muninn.com/en/blog/openclaw-context-budget-negative-maxtokens Sat, 21 Mar 2026 00:00:00 GMT openclaw context window vLLM gpt-oss configuration <![CDATA[[AI Agent] openclaw Real-Time Streaming via Telegram Bot API 9.5 sendMessageDraft]]> https://ai-muninn.com/en/blog/openclaw-telegram-sendmessagedraft-streaming https://ai-muninn.com/en/blog/openclaw-telegram-sendmessagedraft-streaming Sat, 21 Mar 2026 00:00:00 GMT openclaw Telegram streaming Bot API undici GLM <![CDATA[[AI Agent] openclaw: Why the Bot Went Silent — Tailscale, IPv6, and a Node.js Happy Eyeballs Trap]]> https://ai-muninn.com/en/blog/openclaw-telegram-ipv6-tailscale-silent-bot https://ai-muninn.com/en/blog/openclaw-telegram-ipv6-tailscale-silent-bot Thu, 19 Mar 2026 00:00:00 GMT Node.js Tailscale IPv6 undici Happy Eyeballs Telegram Debugging Networking <![CDATA[[vLLM] Running a 120B Model on DGX Spark at 60 tok/s — Zero API Cost, Six Bugs]]> https://ai-muninn.com/en/blog/part2-gpt-oss-120b-serve-script https://ai-muninn.com/en/blog/part2-gpt-oss-120b-serve-script Thu, 19 Mar 2026 00:00:00 GMT DGX Spark SM121 vLLM gpt-oss MXFP4 Blackwell LLM Serving <![CDATA[[vLLM] Qwen3.5-122B Runs. But at 14 tok/s.]]> https://ai-muninn.com/en/blog/part2-qwen-122b-14-toks-gdn-kernel-gap https://ai-muninn.com/en/blog/part2-qwen-122b-14-toks-gdn-kernel-gap Thu, 19 Mar 2026 00:00:00 GMT DGX Spark SM121 Qwen3.5-122B vLLM NVFP4 Marlin GDN LLM Serving <![CDATA[[AI Agent] openclaw: When the Agent Calls for Help]]> https://ai-muninn.com/en/blog/openclaw-callhelp-spawning-cli-from-agent-loop https://ai-muninn.com/en/blog/openclaw-callhelp-spawning-cli-from-agent-loop Wed, 18 Mar 2026 00:00:00 GMT AI Agent openclaw Codex LLM Agent Tools Local AI <![CDATA[[vLLM] Why Your DGX Spark Only Says "!!!!!": Debugging NVFP4 on SM121]]> https://ai-muninn.com/en/blog/part1-why-your-dgx-spark-says-exclamation-marks https://ai-muninn.com/en/blog/part1-why-your-dgx-spark-says-exclamation-marks Tue, 17 Mar 2026 00:00:00 GMT DGX Spark SM121 vLLM NVFP4 MXFP4 Blackwell CUDA LLM Serving <![CDATA[[AI Agent] The Codex-Executor Pattern: Keeping Agent Sessions Small]]> https://ai-muninn.com/en/blog/openclaw-codex-executor-agent-architecture https://ai-muninn.com/en/blog/openclaw-codex-executor-agent-architecture Mon, 16 Mar 2026 00:00:00 GMT AI Agent Claude Code Codex Agent Architecture OpenClaw <![CDATA[[vLLM] Nemotron-3-Super-120B on a Single GB10: Full Day Debug Log]]> https://ai-muninn.com/en/blog/dgx-spark-nemotron-120b-vllm https://ai-muninn.com/en/blog/dgx-spark-nemotron-120b-vllm Fri, 13 Mar 2026 00:00:00 GMT DGX Spark GB10 SM121 Nemotron vLLM NVFP4 Blackwell LLM Serving <![CDATA[[vLLM] Ollama's KEEP_ALIVE Is Silently Eating Your vLLM Headroom]]> https://ai-muninn.com/en/blog/openclaw-ollama-vllm-gpu-conflict https://ai-muninn.com/en/blog/openclaw-ollama-vllm-gpu-conflict Sat, 07 Mar 2026 00:00:00 GMT vLLM Ollama GPU Memory DGX Spark GB10 LLM Serving <![CDATA[[vLLM] Don't Add --enable-chunked-prefill to SSM Models]]> https://ai-muninn.com/en/blog/openclaw-chunked-prefill-ssm-trap https://ai-muninn.com/en/blog/openclaw-chunked-prefill-ssm-trap Fri, 06 Mar 2026 00:00:00 GMT vLLM SSM Qwen DGX Spark LLM Serving Performance <![CDATA[[vLLM] Qwen3.5-35B at 47 tok/s on a Desktop: Migrating from Ollama to vLLM]]> https://ai-muninn.com/en/blog/dgx-spark-vllm-qwen35-setup https://ai-muninn.com/en/blog/dgx-spark-vllm-qwen35-setup Thu, 05 Mar 2026 00:00:00 GMT DGX Spark GB10 vLLM Ollama Qwen3.5 Docker Blackwell AI Agent <![CDATA[[AI Agent] Zero API Cost: Running OpenClaw on DGX Spark + Mac Mini]]> https://ai-muninn.com/en/blog/openclaw-dgx-spark-local-ai-agent https://ai-muninn.com/en/blog/openclaw-dgx-spark-local-ai-agent Thu, 05 Mar 2026 00:00:00 GMT OpenClaw AI Agent DGX Spark Mac Mini Self-Hosted Ollama SearXNG <![CDATA[[Benchmark] Pure MoE vs SSM Hybrid: Context Decay and Why It Matters for Agents]]> https://ai-muninn.com/en/blog/openclaw-moe-ssm-context-decay https://ai-muninn.com/en/blog/openclaw-moe-ssm-context-decay Sun, 01 Mar 2026 00:00:00 GMT Benchmark SSM MoE DGX Spark GB10 LLM Serving AI Agents <![CDATA[[Dev Workflow] I Made Two AIs Argue. The Disagreements Are the Point.]]> https://ai-muninn.com/en/blog/claude-code-debate-system https://ai-muninn.com/en/blog/claude-code-debate-system Thu, 26 Feb 2026 00:00:00 GMT Dev Workflow Claude Code Gemini Codex Multi-AI Code Review <![CDATA[[Claude Code] Testing iOS Apps with Claude Code: 81% Context Reduction]]> https://ai-muninn.com/en/blog/claude-code-ios-testing-bpstracker https://ai-muninn.com/en/blog/claude-code-ios-testing-bpstracker Thu, 26 Feb 2026 00:00:00 GMT Claude Code iOS Swift Testing Fastlane BPS Tracker <![CDATA[[AI Agent] OpenClaw Config Hot-Reload: No Restart Needed]]> https://ai-muninn.com/en/blog/openclaw-config-hot-reload https://ai-muninn.com/en/blog/openclaw-config-hot-reload Wed, 25 Feb 2026 00:00:00 GMT AI Agent OpenClaw Configuration Developer Workflow <![CDATA[[Claude Code] I Wrote MANDATORY. The AI Ignored It.]]> https://ai-muninn.com/en/blog/claude-code-mandatory-instructions https://ai-muninn.com/en/blog/claude-code-mandatory-instructions Thu, 19 Feb 2026 00:00:00 GMT Claude Code AI Agents Prompt Engineering Systems Design Developer Workflow <![CDATA[[Benchmark] 8 Models on DGX Spark: Finding the Best Stack for AI Agents]]> https://ai-muninn.com/en/blog/dgx-spark-ollama-benchmark-8-models https://ai-muninn.com/en/blog/dgx-spark-ollama-benchmark-8-models Thu, 19 Feb 2026 00:00:00 GMT DGX Spark GB10 Ollama Benchmark LLM AI Agent Blackwell