#量化 — 技術筆記 — ai-muninn

~ / blog / tag / 量化

❯ grep -r "#量化" ~/blog

8 篇文章

日期閱讀標題
2026-06-126m
[地端 LLM] 權重就是正義:284B 砍到 2-bit,還是比塞得下的小模型強
#dgx-spark #gb10 #deepseek-v4-flash #量化
2026-06-1210m
[地端 LLM] 第一次跑 Q2 就以為模型變笨了 —— 284B DeepSeek-V4-Flash 在 128GB 桌機,真兇是 parser 不認 DSML
#dgx-spark #gb10 #deepseek-v4-flash #ds4
2026-05-308m
[Benchmark] NVFP4 在 DGX Spark 比 FP8 快 1.5 倍——但贏在壓縮，不是那顆 FP4 運算單元
#nvfp4 #fp8 #dgx-spark #gb10
2026-05-0411m
[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
#z-image #comfyui #nvfp4 #fp8
2026-04-2214m
[實作] 用 Triton 讓 NVFP4 在 GB10 上快 17%：FP8 Tensor Core 繞路攻略
#nvfp4 #fp8 #triton #dgx-spark
2026-04-217m
[Benchmark] NVFP4 在 GB10 上是陷阱：FP8 快 32%（vLLM + SGLang 雙引擎實測）
#nvfp4 #fp8 #dgx-spark #gb10
2026-04-1511m
[LLM 深水區] 量化演算法在做什麼？從 Q4_K_M 到 TurboQuant 的三層拆解
#llm #量化 #quantization #k-quant
2026-04-1011m
[LLM 101 #4] 什麼是量化？Q4、Q8、FP16 到底差在哪
#llm #量化 #ollama #入門

← 回到所有文章