#sm121 — 技術筆記 — ai-muninn

~ / blog / tag / sm121

❯ grep -r "#sm121" ~/blog

18 篇文章

日期閱讀標題
2026-06-1114m
[Benchmark] Qwen3.5-122B 在 DGX Spark 加速 100%!
#qwen3.5 #dgx-spark #gb10 #gdn
2026-06-019m
[Benchmark] NVFP4 W4A4 在 DGX Spark 上超車 FP8:拔掉 enforce-eager,MoE 從 23 衝到 67 tok/s
#nvfp4 #w4a4 #fp8 #dgx-spark
2026-05-308m
[Benchmark] NVFP4 在 DGX Spark 比 FP8 快 1.5 倍——但贏在壓縮，不是那顆 FP4 運算單元
#nvfp4 #fp8 #dgx-spark #gb10
2026-05-0611m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
#gemma-4 #mtp #speculative-decoding #vllm
2026-05-0411m
[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
#z-image #comfyui #nvfp4 #fp8
2026-05-0113m
[vLLM] DGX Spark 跑 Nemotron 3 Nano NVFP4：74.75 tok/s，比公開值快 11.5%
#nemotron-3 #nvfp4 #vllm #dgx-spark
2026-04-2814m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark：4 次 OOM、3 個 prefix bug、最終 51 tok/s
#dgx-spark #gb10 #sm121 #llm-compressor
2026-04-2214m
[實作] 用 Triton 讓 NVFP4 在 GB10 上快 17%：FP8 Tensor Core 繞路攻略
#nvfp4 #fp8 #triton #dgx-spark
2026-04-217m
[Benchmark] NVFP4 在 GB10 上是陷阱：FP8 快 32%（vLLM + SGLang 雙引擎實測）
#nvfp4 #fp8 #dgx-spark #gb10
2026-04-139m
[DGX Spark] 從開箱到跑起來：完整部署指南
#dgx-spark #gb10 #gx10 #vllm
2026-04-055m
[Benchmark] Gemma 4 31B Dense 跑在 DGX Spark：7 tok/s 和頻寬之牆
#gemma-4 #nvfp4 #vllm #dgx-spark
2026-04-057m
[vLLM] Gemma 4 26B-A4B NVFP4 跑在 DGX Spark：52 tok/s，模型只佔 16 GB
#gemma-4 #nvfp4 #vllm #dgx-spark
2026-03-308m
[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？
#turboquant #kv-cache #quantization #vllm
2026-03-216m
[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈
#vllm #fp8 #kv-cache #gb10
2026-03-1912m
[vLLM] 在 DGX Spark 上跑 120B 模型到 60 tok/s——零 API 成本、六個坑
#dgx-spark #sm121 #vllm #gpt-oss
2026-03-197m
[vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。
#dgx-spark #sm121 #qwen3.5-122b #vllm
2026-03-1711m
[vLLM] 為什麼你的 DGX Spark 只會輸出「!!!!!」：SM121 上的 NVFP4 除錯記錄
#dgx-spark #sm121 #vllm #nvfp4
2026-03-1310m
[vLLM] 單顆 GB10 跑 Nemotron-3-Super-120B：一天的除錯記錄
#dgx-spark #gb10 #sm121 #nemotron

← 回到所有文章