~ /home/coolthor

ai-muninn

AI 基礎設施、LLM 部署與自主 Agent 的研究筆記。那些花了太長時間才搞懂的事,寫下來讓你不用重踩。

whoami

在家用 DGX Spark 跑 120B 模型的硬體愛好者

用 AI Agent 建造期權交易基礎設施

偶爾也會上架 iOS App

cat ~/blog/概念

概念與方法 (Concepts)

給想理解 AI 怎麼運作的人

cat ~/blog/實戰

實戰紀錄 (Field Notes)

給在跑模型、踩過坑的人

  • 2026-05-09
    想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body

    自量化 huihui Gemma 4 26B-A4B abliterated 成 FP8 ship 上 HF。完整 n=1..4 sweep 後發現:abliterated body 跟 vanilla baseline 完全一樣快,n=1 上 MTP 加成也一樣;但 n=4 deep speculation 上 huihui 因為 per-position decay 陡(每 step 22pp)而被 vanilla 拉開兩倍。Tax 的真實樣貌是 conditional on num_speculative_tokens,不是固定百分比。

  • 2026-05-06
    火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)

    Google 2026-05-05 發 Multi-Token Prediction drafter,vLLM PR 同日開、官方 preview docker 同日有。DGX Spark 上實測 Gemma 4 26B-A4B-it FP8 + MTP γ=4:單流 108 tok/s(2.66× baseline)、8 路並行 674 tok/s 總吞吐。一個沒寫進文件的雷:drafter 不能配 base model,要配 -it。

  • 2026-05-05
    [Skill] 我的繁中不夠台 — zhtw-mcp 掃 72 篇文章修了 128 處陸用詞

    sysprog21/zhtw-mcp 把繁中規則編譯成執行檔。掃 ai-muninn 全部 72 篇繁中文章三輪修了 128 處陸用詞,但真正的收穫不是修了多少 — 是發現我的盲點不是「不知道台灣怎麼說」,是「碰到陸用詞時預設不會主動懷疑」。

  • 2026-05-04
    [實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM

    DGX Spark GB10 上 Z-Image Turbo 6 種量化組合(BF16 / FP8 cast 標準 / FP8 cast fast / FP8 scaled Kijai / NVFP4 / NVFP4+FP8 encoder)實測。N=10 隔離 GPU 測,NVFP4 5.50s warm 比 BF16 7.55s 快 1.37×,FP8 三條 path 全比 BF16 慢。模型工作集 RSS 從 BF16 20.6 GB 降到 NVFP4+FP8 11.5 GB(省 44%)。

  • 2026-05-04
    [實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證

    Z-Image Turbo 量化版會不會崩品質?LPIPS(perceptual 距離 vs BF16)+ CLIPScore(image-text 對齊)雙軸跑 6 prompt × 4 config × 3 seed = 72 sample。結論:NVFP4 跟 BF16 圖長得不一樣,但這個 N=72 sample 沒測到任何量化 config 的 prompt fidelity regression — 4 個 config CLIPScore 都在 ±std 0.04 內,差距比 noise 小一個數量級。

共 75 篇文章 · 查看全部文章 →