#mtp — 技術筆記 — ai-muninn

~ / blog / tag / mtp

❯ grep -r "#mtp" ~/blog

6 篇文章

日期閱讀標題
2026-06-255m
[趣味競賽進階 #4] 量化 draft cache 反而更慢:Qwen MTP 投機解碼的反直覺實測(f16 比 q4 快 34%)
#mtp #投機解碼 #本地-llm #qwen3
2026-06-015m
[Benchmark] NVFP4 W4A4 在 DGX Spark 上超車 FP8:拔掉 enforce-eager,MoE 從 23 衝到 67 tok/s
#nvfp4 #w4a4 #fp8 #dgx-spark
2026-05-144m
在 DGX Spark 上 30 行 docker 拿 +34%:huihui Gemma 4 FP8 + vanilla MTP n=1 部署 recipe
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-098m
想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
#gemma-4 #abliteration #mtp #speculative-decoding
2026-05-067m
火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
#gemma-4 #mtp #speculative-decoding #vllm
2026-04-289m
[llm-compressor] 自量化 abliterated 35B FP8 on DGX Spark：4 次 OOM、3 個 prefix bug、最終 51 tok/s
#dgx-spark #gb10 #sm121 #llm-compressor

← 回到所有文章