DGX Spark · part 22
[Benchmark] 拿掉拒絕的 Qwen 3.6 35B 繁中能力損 1.85 分——但信託實務掉 7.7 分
❯ cat --toc
TL;DR
跟 Part 21 一樣的 harness、一樣的 DGX Spark、一樣 22,690 題——這次換成 abliterated 的 Qwen 3.6 35B。總分 75.07% → 73.22%,掉 1.85 分。但代價不平均:規範性題目失血(信託 −7.7、行政法 −7.1、反洗錢 −6.7),純邏輯反而略好(logic_reasoning +2.9、junior_math +1.7)。台語還變更差——abliteration 解不了資料缺乏。即使損了 1.85 分,abliterated 還是在繁中贏 Gemma +26.92pp。
白話版:拿掉安全濾鏡要付什麼代價?
Part 21 跑出來的結論是:Qwen 3.6 35B 在繁中 benchmark 贏 Gemma 4 26B 28 分。但原版 Qwen 還是會婉拒、加免責聲明——日常寫作沒差,寫小說、做安全研究、想坦率聊天就煩。
社群的解法叫 abliteration:手術式地調整模型權重,把「想拒絕」這個傾向拿掉,不用重新訓練。常見的版本之一是 huihui-ai 出的。
那能力會掉多少?我把同一套繁中 benchmark 跑下去。結果:總分只掉 2 分——但分布不平均。信託、行政法、反洗錢這類題目掉 6 到 8 分。純推理反而漲 1 到 3 分。一個合理猜想:abliteration 動到的是「預設選保守答案」這個傾向,所以合規題受傷、純邏輯不受影響、甚至略好。但這只是這次跑出來的分布,當作觀察就好,不是定論。
abliteration 沒修好的東西:台語。它變更差。台語盲點本來就跟 safety filter 無關,是訓練資料本身就不存在。
前言
Part 21 比的是 Gemma 4 26B 跟 Qwen 3.6 35B 在 TMMLU+ 的差距。Qwen 51 個科目全勝,總分差 28.77pp。結論:繁中工作直接選 Qwen。
但那篇的 Qwen 是原版,alignment hedging 還在。實際在地端用 LLM——寫東西、需要銳利的回饋、安全研究、坦率聊天——多數人會去抓 abliterated 變體。下一個自然的問題:abliteration 究竟要付多少能力代價?
同 harness、同機器、同 22,690 題。換一個 model 而已。
Setup:跟 Part 21 一樣,只換 model
硬體: NVIDIA GB10(DGX Spark)
Harness: lm-evaluation-harness
Backend: local-completions API 打 vLLM
Few-shot: 5
Concurrency: 8
Dataset: ikala/tmmluplus
模型: huihui-ai/Huihui-Qwen3.6-35B-A3B-abliterated(BF16, 67 GB)
Abliterated checkpoint 只出 BF16,huihui-ai 沒做 FP8 釋出。我想自己轉一份 FP8 出來,跟 Part 21 的 Qwen FP8 baseline 對齊精度,結果撞到工具鏈。llmcompressor 在 setup.py 把 transformers 卡死在 ≤ 4.57.6;但 qwen3_5_moe 這個 architecture config 是 transformers v5.2.0 才有(v5.0.0、v5.1.0 都沒收)。也就是說 qwen3_5_moe 比 llmcompressor 容許的 transformers 還新。撞牆。我把 monkey-patch 路徑寫進自己的 runbook 留下次處理。
意思是下面這個 −1.85pp 可能同時包了兩個東西:abliteration 的影響 + FP8 換 BF16 的精度差。我沒在這個模型上單獨量過精度差,所以我不引用具體數字——只能說相對於 1.85pp,精度那塊應該偏小,不會反轉結論。
標題:總分掉 1.85 分,abliterated 還是贏 Gemma 26.92 分
| Model | TMMLU+ 總分 |
|---|---|
| Gemma 4 26B-A4B FP8 | 46.30% |
| Qwen 3.6 35B FP8(原版) | 75.07% |
| Qwen 3.6 35B abliterated BF16 | 73.22% |
| Abliteration 帶來的 Δ | −1.85pp |
| Abliterated 對 Gemma 還是贏 | +26.92pp |
如果你打算把 abliterated Qwen 設成日常繁中模型,這就是答案:付不到 2 個百分點的 TMMLU+ 精度,換一個不會婉拒的版本。任何不是在跑 benchmark 的場景,這筆交易划算。
哪裡受傷:規範性題目失血 5 到 8 分
51 個 paired 子科目裡,38 個變差、8 個變好、5 個沒動。平均 Δ = −1.97pp,stdev 2.29。
Top 5 abliteration 後最慘的:
| 科目 | 原版 | Abliterated | Δ |
|---|---|---|---|
| trust_practice(信託實務) | 62.1 | 54.4 | −7.7 |
| administrative_law(行政法) | 71.2 | 64.0 | −7.1 |
| anti_money_laundering(反洗錢) | 83.6 | 76.9 | −6.7 |
| jce_humanities(人文國考) | 83.3 | 77.8 | −5.6 |
| real_estate(不動產實務) | 58.7 | 53.3 | −5.4 |
模式很清楚:「正解就是保守、合規、法律的答案」這類題目掉特別多。原版 Qwen 預設傾向選守規答案,abliteration 把這個傾向砍掉,但選擇題裡監管者認可的答案就是對的——這個傾向原本是有用的,而不是廢的。
這是真實的成本,不是好奇心。如果你拿 abliterated Qwen 做合規、法律、財務建議,可靠度會比原版差。
哪裡沒受傷:純推理略好
Top 5 變好(或沒變)的科目:
| 科目 | 原版 | Abliterated | Δ |
|---|---|---|---|
| logic_reasoning | 46.8 | 49.6 | +2.9 |
| junior_math_exam | 56.0 | 57.7 | +1.7 |
| junior_chinese_exam | 90.9 | 92.0 | +1.1 |
| advance_chemistry | 71.5 | 72.4 | +0.8 |
| physical_education | 73.2 | 73.7 | +0.6 |
漲幅不大,落在 stderr 範圍內,但五個科目方向一致。一個比較投機的猜想:abliteration 也順手拿掉一點點「思考中段的猶豫」(「另一方面」「但也要考慮」),純推理科目從乾淨的推理路徑受益。這個解讀沒前面規範性失血那麼站得住,當成假說,別當結論。
純邏輯 agent 或數學家教這類場景,這次跑出來 abliterated 跟原版差不多,沒明顯落差。
台語盲點:abliteration 沒解,反而略爛
| Model | Hokkien acc |
|---|---|
| Gemma 4 26B FP8 | 32.56% |
| Qwen 3.6 35B FP8(原版) | 41.86% |
| Qwen 3.6 35B abliterated | 37.21%(掉 4.65pp) |
隨機基準 = 25%。
Abliteration 沒幫上,反而略傷。這跟 Part 21 的結論一致:台語落差是資料缺乏,不是 safety filter。Abliteration 只是擾動權重移除拒絕,但模型沒學過的領域(公開台語語料總共幾百 MB),擾動就是在亂猜上加噪音,沒「鎖」可以解。
重點:如果你以為 uncensored 能解鎖台語,這次跑出來說沒有。台語去看 Yentinglin 的 Llama-3-Taiwan-70B-Instruct,或就接受落差。
收穫
最花時間的地方
是工具鏈,不是測試本身。我想把 huihui-ai 的 BF16 權重轉成 FP8,這樣才跟 Part 21 的 Qwen FP8 baseline 是真正同條件。llmcompressor(標準工具)setup.py 把 transformers pin 在 ≤ 4.57.6。但 qwen3_5_moe config 是 transformers v5.2.0 才有的(v5.0.0、v5.1.0 都還沒)。Transformers v5 還順手把 use_auth_token 砍掉(PR #41666),但 llmcompressor 的 entrypoints/utils.py 還在傳。三種版本組合,兩個獨立原因,全炸。修法:fork llmcompressor、把 use_auth_token 換成 token、editable 裝,再裝 transformers ≥ 5.2.0。一小時 toolchain debug 這次沒生出 FP8 weights。
我選的務實做法:跑 BF16,吞下精度 confound,先拿到資料。不管精度差多少,per-subject 那種「規範題大幅失血、純邏輯反而略好」的不平均分布,沒辦法用「整體精度均勻下降」解釋。
可搬走的診斷方法:per-subject Δ 才看得出修改了什麼
總分告訴你「這還是不是有用的模型」(73% vs 75%,是)。Per-subject Δ 告訴你這個修改跟什麼能力相關。規範題掉 6-8pp、純邏輯漲 1-3pp,這個分布跟「abliteration 動到的是『服從規則』這個方向、不是『一般智能』」的解讀一致——但這只是一份 paired benchmark,當觀察可以,不是證明。框架對得上 refusal-direction 那篇論文(社群做 abliteration 常引用的那篇),它把「拒絕」建模成 residual stream 上的單一方向。
如果只報總分,最有意思的發現就丟掉了。
通用原則
修改模型之後,子科目層級 diff,不要只看總分。平均是摘要,分布才是故事。1.85pp 總分看起來像噪音,trust_practice 掉 7.7 分是訊號。
結論
April 2026 想在地端 deploy abliterated Qwen 3.6 35B 做繁中工作,給你的 checklist:
- 一般寫作、聊天、小說、銳利回饋——直接用。1.85pp 總分代價在實務看不出來,換一個不 hedging 的模型很值。
- 合規、法律、財務建議——用原版 Qwen。信託 −7.7、行政法 −7.1 是真的可靠度損失,這類任務別省。
- 純推理 / 數學——這次跑下來 abliterated 跟原版差不多,可能略好一點點。差距小,別當成決定性優勢。
- 台語——兩個都不行。看 Yentinglin 的 Llama-3-Taiwan-70B。
- 想要乾淨的精度對照——自己把 abliterated 轉 FP8(monkey-patch llmcompressor 大概一小時)再重跑。可以把這份分析的 precision confound 切乾淨。
Run config 跟完整 51 子科目 Δ 表都在 GX10 的 ~/tmmlu-runs/qwen-abl-bf16-full/。整套 abliterated BF16 跑下來大約 5 小時,FP8 應該可壓到 3 小時。
同系列:
常見問題
- Abliteration 是什麼?為什麼要用?
- Abliteration 是訓練後的權重微調手術,把模型「想拒絕」對應的方向中和掉,不需要 fine-tune 資料。出來的模型會照指令做事,不再婉拒。常見場景:寫小說、需要直白回饋、安全研究、聊天時懶得被 alignment 打斷。
- Abliteration 會把繁中能力打爛嗎?
- 不會。TMMLU+ 總分從 75.07% 滑到 73.22%,差 1.85 個百分點。即使這樣,abliterated 版本還是贏 Gemma 4 26B 26.92 分。代價真實,但比模型彼此的差距小很多。
- Abliteration 在哪些科目最傷?
- 規範性、權威性題目最慘:信託實務(−7.7)、行政法(−7.1)、反洗錢(−6.7)。這類題目的「正解」就是「保守、合規的法律答案」,模型原本傾向選保守答案,這個傾向被 abliteration 拿掉就答錯了。
- 有什麼科目反而變好?
- 純邏輯跟數學略好:logic_reasoning(+2.9)、junior_math_exam(+1.7)、junior_chinese_exam(+1.1)。一個猜想:abliteration 順手把思考中段的猶豫(「另一方面」「也要考慮」)一起拿掉,純推理路徑變乾淨。
- 為什麼台語反而更差?
- 台語從 41.86% 掉到 37.21%(−4.65pp)。這個盲點跟拒絕無關——是訓練資料本身不存在(書寫沒標準、公開語料總共幾百 MB)。Abliteration 只是擾動權重,模型沒學過的領域,擾動就是純噪音。沒有「鎖」可以解。