DGX Spark · part 21
[Benchmark] 繁中 LLM 實測:Qwen 3.6 35B 在 TMMLU+ 51 個子科目全勝 Gemma 4 26B
❯ cat --toc
TL;DR
兩個 MoE 模型,一台 DGX Spark,22,690 題繁中選擇題。Qwen 3.6 35B-A3B:75.07%。Gemma 4 26B-A4B:46.30%。 Qwen 51 個子科目全勝,0 敗。「Google 繁中比較好」這個直覺撐不過實測——連台灣地理這種主場題目,Qwen 都贏 41.9 分。兩個模型唯一一起跌的是台語(接近隨機)。
白話版:一份不會給模型留面子的考卷
TMMLU+ 是台灣 iKala 做的繁中考卷,22,690 題、66 個科目,從國小一路考到律師國考、獸醫國考。考得好不只要懂繁體中文,還要懂台灣文化、地理、法律制度。
我把兩個開源 MoE 模型——Google 的 Gemma 4 26B-A4B 跟阿里的 Qwen 3.6 35B-A3B——丟進同一台機器、同一套 harness、跑同樣的題。各跑大概 3.6 小時。
結果不是普通的差距。Qwen 75 分、Gemma 46 分,差快 30 分。Qwen 每個科目都贏。
兩個都爛的只有一個科目:台語。33 分跟 42 分,跟亂猜(25%)差不多。這不是模型不夠強,是資料根本不夠——台語書寫沒統一標準,公開語料量小到對 35B 模型沒意義。
前言
我原本的預設是 Qwen 在繁中會比 Gemma 差。Qwen 訓練主要是簡中,Google 在台灣搜尋做了二十年——直覺上 Gemma 該占優勢。但這個假設沒人在當代模型上實際比過,所以只能算個軟性印象。
Codex 在一場 /debate 打我說:你一直在講「Gemma 繁中應該比較強」,但你沒 benchmark 資料撐這個說法。
合理。所以我去拿了資料。
Setup:lm-eval-harness + vLLM + DGX Spark
硬體: NVIDIA GB10(DGX Spark),128GB unified memory,ARM64 Grace
Harness: lm-evaluation-harness(EleutherAI)
Backend: local-completions API 打 vLLM Docker container
量化: FP8 Dynamic(RedHatAI / Qwen 官方)
Few-shot: 5
Concurrency: 8
Dataset: ikala/tmmluplus(22,690 題、66 個科目)
lm_eval \
--model local-completions \
--model_args base_url=http://localhost:8000/v1/completions,model=$MODEL,tokenizer=$PATH,num_concurrent=8 \
--tasks tmmluplus \
--num_fewshot 5 \
--output_path ~/tmmlu-runs/$MODEL \
--trust_remote_code
一個地雷:datasets>=4 把 loading script 砍了,但 TMMLU+ 還在用 tmmluplus.py builder script。第一次跑直接爆 RuntimeError: Dataset scripts are no longer supported。降到 datasets==2.21 就過。如果你跑舊一點的 HF dataset 還在用 builder script,一開始就 pin 版本,省麻煩。
75.07% vs 46.30%,Gemma 一個都沒贏
| Gemma 4 26B-A4B | Qwen 3.6 35B-A3B | Δ | |
|---|---|---|---|
| 總分 | 46.30% | 75.07% | +28.77 |
| STEM | 54.37% | 77.89% | +23.52 |
| 人文 | 41.07% | 65.23% | +24.16 |
| 其他 | 41.20% | 72.14% | +30.94 |
| 社會科學 | 50.77% | 80.72% | +29.95 |
51 個 paired 子科目,Qwen 贏 51 個,Gemma 贏 0 個。
對照 2024 年凍結的 TMMLU+ 官方 leaderboard:
| 模型 | TMMLU+ |
|---|---|
| GPT-5 | 88.60 |
| Qwen 3.6 35B-A3B(這次跑) | 75.07 |
| gpt-oss:120b | 69.14 |
| Gemini-1.5-pro | 64.65 |
| Qwen-72B(舊代 Qwen) | 64.27 |
| Gemma 4 26B-A4B(這次跑) | 46.30 |
Qwen 3.6 35B-A3B 用 3B active 比舊代 Qwen-72B(72B dense)還高 11 分。Gemma 4 26B 反而比舊 Qwen-72B 還低 18 分。
台灣專屬題目:以為 Gemma 會贏的地方
我原本的直覺是這樣:Google 在台灣搜尋占有率高,繁中索引深,Gemma 應該比訓練偏中國的 Qwen 更懂台灣專屬內容。
實測:
| 科目 | Gemma | Qwen | Δ |
|---|---|---|---|
| 台灣地理 | 40.8 | 82.7 | +41.9 |
| 高職自然 | 54.0 | 88.9 | +34.9 |
| 高職設計 | 53.3 | 86.2 | +32.9 |
| 高職國文 | 66.5 | 90.5 | +24.0 |
| 高職數學 | 29.3 | 46.7 | +17.3 |
| 傳統中醫臨床 | 41.0 | 78.4 | +37.4 |
| 中文語言文學 | 33.7 | 76.4 | +42.7 |
每個我抓出來看的台灣專屬科目,Qwen 都贏 17 到 42 分。「Google 有更多繁中資料」的假設碰到實測直接死。
合理推測:Qwen 訓練語料量大到某個程度,即使主體是簡中,跨字體轉移到繁中還是比 Google 為 Gemma 挑出來的繁中子集有用。量大但雜 > 量小但乾淨——當兩家都不夠認真投入的時候。
共同死穴:台語
兩個模型一起跌的只有這個:
| 科目 | Gemma | Qwen | 隨機基準 |
|---|---|---|---|
| 台語(Hokkien) | 32.6 | 41.9 | 25.0 |
Qwen 還是贏 9.3 分,但 41.9% 只比亂猜高 17 分——任何 production 場景都不能用。
這不是花一個週末 fine-tune 就能解的問題:
- 書寫沒標準。台語有 POJ(教會羅馬字)、漢羅、全漢、台羅、注音閩南語——不同社群、不同正字法。
- Tokenizer 沒有原生台語 token。Qwen 跟 Gemma 對很多台語字會 fallback 到 byte-level,token 效率極差。
- 公開語料太小。PTT 台語板、台文戰線、自由時報台語專欄、台日大辭典加起來大概也只有幾百 MB。對 35B 模型完全不夠。
要做台語應用,看 Yentinglin 的 Taiwan-LLM 系列——他們花了好幾年蒐集台灣語料。在 Qwen 3.6 上做 LoRA 贏不過他們,一個人重做也是在重新發明學界已經做得更好的輪子。
收穫
最花時間的地方
datasets>=4 砍 loading script。第一次跑直接爆 RuntimeError: Dataset scripts are no longer supported, but found tmmluplus.py。降到 datasets==2.21 就解。如果你跑任何老一點、還在用 builder script 的 HF dataset,一開始就 pin 版本,不要等炸了再回頭找。
可搬走的診斷方法:paired eval 不能省
單一模型分數沒有 paired baseline 就是噪音。Qwen 3.6 75% 聽起來很猛,Gemma 4 26B 46% 聽起來很爛。但只有同一套 harness、同一台硬體、同一天跑出來的兩個數字擺在一起,你才知道哪個是模型訊號、哪個是 benchmark 自己的特性。配對也能讓你看出「某個分數意外高 / 低」到底是模型本身、還是 benchmark 結構在說話。
通用原則
「X 在 Z 任務的訓練資料應該比 Y 多」這種直覺,動手做之前先跑 paired benchmark。對訓練語料組成的印象,多半是繼承自別人的二手意見,不是當代模型的實測。我這次的直覺直接錯了 28 分。
結論
April 2026 想在地端選繁中模型,給你的 checklist:
- 繁中寫作、blog、辯論——預設選 Qwen 3.6 35B-A3B FP8。3B active 在 DGX Spark 上跑得快,TMMLU+ 比 Gemma 高 28 分。
- 英文 coding agent——選 Gemma 4 26B-A4B(SWE-bench Lite 38.67%、有 audio 多模態、VRAM 較省)。
- 台語——Yentinglin 的 Llama-3-Taiwan-70B,或接受能力落差。Qwen 跟 Gemma 都不行。
- 決定主力模型前——先跑 paired benchmark。「哪個中文比較好」這個共識,沒人在當代模型上重新校準過,我自己直覺差了 28 分。
Run config、完整子科目分數、對比 script 都在 GX10 的 ~/tmmlu-runs/ 下。兩個 results_*.json 各 30KB,整套 paired 跑完大約 7 小時。
同系列:
常見問題
- TMMLU+ 是什麼?為什麼測繁中要用它?
- TMMLU+ 是 iKala 做的一份繁體中文選擇題 benchmark,22,690 題、66 個科目,從國小到專業考照(律師、醫師、會計師、獸醫)都收。題目包含台灣專屬內容,像台灣地理、台語、高職國文。其他常見的中文 benchmark(C-Eval、CMMLU)都是簡中、中國語境,TMMLU+ 是少數真的在測「這個模型懂不懂台灣」的卷子。
- Qwen 真的 51 個科目全勝?沒有一個 Gemma 贏?
- 對,51 / 51 全勝。最小差距是邏輯推理(+8.6 分),最大差距是餐飲技術(+43.5 分)。總分 Qwen 75.07%、Gemma 46.30%,差 28.77 個百分點。
- Google 的繁中資料不是比阿里巴巴多嗎?怎麼會輸?
- 我自己原本也是這個直覺——Qwen 主要訓練在簡中、Google 在台灣搜尋市場深耕二十年,預期 Qwen 會輸。Codex 在一場 /debate 打我說「你這直覺沒 benchmark 撐」。所以我去拿了數據。實測下去連台灣地理 +41.9 分、傳統中醫 +37.4 分這些台灣專屬題目,Qwen 都贏。「Google 繁中 corpus 比較好」這個假設碰到實測直接破。
- 兩個模型有共同的死穴嗎?
- 有,台語(Hokkien)。Gemma 32.6%、Qwen 41.9%——兩個都接近隨機(25%)。台語沒有統一的書寫標準(POJ、漢羅、全漢、台羅混用),公開語料總共大概只有幾百 MB。fine-tune 救不了,是資料本身就不夠。要做台語應用,看 Yentinglin 的 Taiwan-LLM 系列。