~/ai-muninn
blog
github
EN
~ / blog
/
tag / sm121
❯
grep -r "#sm121" ~/blog
8 篇文章
日期
閱讀
標題
2026-04-05
5m
[vLLM] Gemma 4 26B-A4B NVFP4 跑在 DGX Spark:52 tok/s,模型只佔 16 GB
#gemma-4
#nvfp4
#vllm
#dgx-spark
2026-04-05
3m
[Benchmark] Gemma 4 31B Dense 跑在 DGX Spark:7 tok/s 和頻寬之牆
#gemma-4
#nvfp4
#vllm
#dgx-spark
2026-03-30
4m
[Benchmark] TurboQuant 實測:KV Cache 3-bit 壓縮,真的零損失?
#turboquant
#kv-cache
#quantization
#vllm
2026-03-21
3m
[vLLM] GB10 上的 FP8 KV Cache:為什麼輸出會在 500 Token 後崩成重複迴圈
#vllm
#fp8
#kv-cache
#gb10
2026-03-19
6m
[vLLM] 在 DGX Spark 上跑 120B 模型到 60 tok/s——零 API 成本、六個坑
#dgx-spark
#sm121
#vllm
#gpt-oss
2026-03-19
2m
[vLLM] Qwen3.5-122B 跑起來了。但只有 14 tok/s。
#dgx-spark
#sm121
#qwen3.5-122b
#vllm
2026-03-17
5m
[vLLM] 為什麼你的 DGX Spark 只會輸出「!!!!!」:SM121 上的 NVFP4 除錯記錄
#dgx-spark
#sm121
#vllm
#nvfp4
2026-03-13
5m
[vLLM] 單顆 GB10 跑 Nemotron-3-Super-120B:一天的除錯記錄
#dgx-spark
#gb10
#sm121
#nemotron
← 回到所有文章