#quantization — 技術筆記 — ai-muninn

~ / blog / tag / quantization

❯ grep -r "#quantization" ~/blog

10 篇文章

日期閱讀標題
2026-06-0910m
[趣味競賽] GTX 970 跑 Gemma 4 E2B：最大的量化檔反而最快（47.6 tok/s）
#gemma-4 #quantization #gtx-970 #llama.cpp
2026-06-058m
[Benchmark] NVFP4 量化砍繁中比砍英文兇兩倍：gemma-4-12B 實測
#dgx-spark #gb10 #gemma-4 #nvfp4
2026-06-046m
[Benchmark] Gemma 4 12B omni 上 DGX Spark:weight-only NVFP4 贏 W4A4,還保住多模態
#dgx-spark #gb10 #gemma-4 #nvfp4
2026-06-018m
[Benchmark] NVFP4 把影片模型砍小三分之一,速度卻一點沒快——因為 diffusion 是 compute-bound
#nvfp4 #sulphur-2 #ltx-2.3 #dgx-spark
2026-05-0414m
[實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證
#z-image #comfyui #nvfp4 #fp8
2026-04-2814m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark：4 次 OOM、3 個 prefix bug、最終 51 tok/s
#dgx-spark #gb10 #sm121 #llm-compressor
2026-04-1511m
[LLM 深水區] 量化演算法在做什麼？從 Q4_K_M 到 TurboQuant 的三層拆解
#llm #量化 #quantization #k-quant
2026-04-079m
[Benchmark] 從 19 到 50 tok/s：我們搶先做了全球首個 Gemma 4 E4B NVFP4 量化
#gemma-4 #e4b #nvfp4 #fp8
2026-03-308m
[Benchmark] TurboQuant 實測：KV Cache 3-bit 壓縮，真的零損失？
#turboquant #kv-cache #quantization #vllm
2026-03-216m
[vLLM] GB10 上的 FP8 KV Cache：為什麼輸出會在 500 Token 後崩成重複迴圈
#vllm #fp8 #kv-cache #gb10

← 回到所有文章