~ /home/coolthor
ai-muninn
AI 基礎設施、LLM 部署與自主 Agent 的研究筆記。那些花了太長時間才搞懂的事,寫下來讓你不用重踩。
❯ whoami
在家用 DGX Spark 跑 120B 模型的硬體愛好者
用 AI Agent 建造期權交易基礎設施
偶爾也會上架 iOS App
❯ cat ~/blog/概念
概念與方法 (Concepts)
給想理解 AI 怎麼運作的人
- 2026-05-03[AI 速成] AI 答案是不是亂編?三招 30 秒驗證
AI 一樣自信地給你對的答案跟編的答案,分不出來。三招 30 秒驗:具體事實 Google 一次、叫 AI 補連結點開看、換家問或開臨時聊天。
- 2026-05-01[AI 速成] ChatGPT、Claude、Gemini 30 秒選好你該用哪個
三個主流 AI 各自有強項,選錯就是用錯工具。一句話分辨:第一次接觸選 ChatGPT、要寫長文選 Claude、用 Google 服務多選 Gemini。文末有對照表跟快速決策流程。
- 2026-04-29[AI 速成] 跟 AI 講話的 3 個開場白,答案直接更貼需求
AI 第一句問得不好,後面追多少都是補洞。三個開場白:角色扮演、講清情境、講最終目標——任選一個用,AI 回答品質會明顯差很多。文末有 copy-paste prompt 範本。
- 2026-04-27[AI 速成] 三個問題,讓 ChatGPT 給你完美解答
ChatGPT 第一次回答不夠好不要放棄。再追三句話:「澄清問題」、「補充情境」、「指定格式」——80% 場景用這個套路就解決。文末有可以直接抄的 prompt。
- 2026-04-27[AI 速成] 不知道用 AI 做什麼?問自己這 5 件事
打開 ChatGPT 不知道從哪開始?需求不是天生就知道,是被找出來的。從每週重複的事、最常 Google 的問題、一直拖的事、看不懂的東西、卡住的下一步,五個角度幫你挖出 AI 真正能幫你的場景。
❯ cat ~/blog/實戰
實戰紀錄 (Field Notes)
給在跑模型、踩過坑的人
- 2026-05-09想用 MTP 加速 abliterated Gemma 4?vanilla draft 對不上被改過的 body
自量化 huihui Gemma 4 26B-A4B abliterated 成 FP8 ship 上 HF。完整 n=1..4 sweep 後發現:abliterated body 跟 vanilla baseline 完全一樣快,n=1 上 MTP 加成也一樣;但 n=4 deep speculation 上 huihui 因為 per-position decay 陡(每 step 22pp)而被 vanilla 拉開兩倍。Tax 的真實樣貌是 conditional on num_speculative_tokens,不是固定百分比。
- 2026-05-06火箭起飛:Gemma 4 在 DGX Spark 跑出 670 tok/s 總吞吐(單流 108 tok/s)
Google 2026-05-05 發 Multi-Token Prediction drafter,vLLM PR 同日開、官方 preview docker 同日有。DGX Spark 上實測 Gemma 4 26B-A4B-it FP8 + MTP γ=4:單流 108 tok/s(2.66× baseline)、8 路並行 674 tok/s 總吞吐。一個沒寫進文件的雷:drafter 不能配 base model,要配 -it。
- 2026-05-05[Skill] 我的繁中不夠台 — zhtw-mcp 掃 72 篇文章修了 128 處陸用詞
sysprog21/zhtw-mcp 把繁中規則編譯成執行檔。掃 ai-muninn 全部 72 篇繁中文章三輪修了 128 處陸用詞,但真正的收穫不是修了多少 — 是發現我的盲點不是「不知道台灣怎麼說」,是「碰到陸用詞時預設不會主動懷疑」。
- 2026-05-04[實戰] Z-Image Turbo 教戰守則:6 種配置怎麼選,1.37× 加速 + 44% 省 RAM
DGX Spark GB10 上 Z-Image Turbo 6 種量化組合(BF16 / FP8 cast 標準 / FP8 cast fast / FP8 scaled Kijai / NVFP4 / NVFP4+FP8 encoder)實測。N=10 隔離 GPU 測,NVFP4 5.50s warm 比 BF16 7.55s 快 1.37×,FP8 三條 path 全比 BF16 慢。模型工作集 RSS 從 BF16 20.6 GB 降到 NVFP4+FP8 11.5 GB(省 44%)。
- 2026-05-04[實戰] Z-Image Turbo 教戰守則:換配置會崩品質嗎?LPIPS + CLIPScore 雙軸驗證
Z-Image Turbo 量化版會不會崩品質?LPIPS(perceptual 距離 vs BF16)+ CLIPScore(image-text 對齊)雙軸跑 6 prompt × 4 config × 3 seed = 72 sample。結論:NVFP4 跟 BF16 圖長得不一樣,但這個 N=72 sample 沒測到任何量化 config 的 prompt fidelity regression — 4 個 config CLIPScore 都在 ±std 0.04 內,差距比 noise 小一個數量級。