~/blog/tmmluplus-qwen-vs-gemma-traditional-chinese

DGX Spark · part 21

[Benchmark] 繁中 LLM 實測:Qwen 3.6 35B 在 TMMLU+ 51 個子科目全勝 Gemma 4 26B

cat --toc

TL;DR

兩個 MoE 模型,一台 DGX Spark,22,690 題繁中選擇題。Qwen 3.6 35B-A3B:75.07%。Gemma 4 26B-A4B:46.30%。 Qwen 51 個子科目全勝,0 敗。「Google 繁中比較好」的直覺撐不過實測——連台灣地理這種主場題目,Qwen 都贏 41.9 分。兩個模型唯一共同弱點是台語(接近隨機)。

白話版:一份不會考慮模型面子的考卷

TMMLU+ 是台灣 iKala 做的一份繁中考卷。22,690 題、66 個科目,從國小一路考到律師國考、獸醫國考。要考得好不只要懂繁體中文,還要懂台灣文化、台灣地理、台灣的法律制度。

我把兩個開源 MoE 模型——Google 的 Gemma 4 26B-A4B 跟阿里的 Qwen 3.6 35B-A3B——丟進同一台機器、同一套 harness、跑同樣的題目。各跑大概 3.6 小時。

結果不是普通的差距。Qwen 75 分、Gemma 46 分,差快 30 分。Qwen 每一個科目都贏。

唯一兩個都爛的:台語。33 分跟 42 分,跟亂猜(25%)差不多。這不是模型不夠強,是資料根本不夠——台語書寫沒統一標準,公開語料量小到對 35B 模型沒意義。


前言

我原本的預設是 Qwen 在繁中會比 Gemma 差。Qwen 訓練語料以簡中為主,Google 在台灣搜尋市場做了二十年——直覺上 Gemma 該有優勢。但這個假設沒人在當代模型上對齊過,所以只能算軟性印象。

然後 Codex 在一個 /debate session 打我說:你一直在講「Gemma 繁中應該比較強」,但你沒 benchmark 數據撐這個說法。

合理。所以我去拿了數據。


Setup:lm-eval-harness + vLLM + DGX Spark

硬體:        NVIDIA GB10(DGX Spark),128GB unified memory,ARM64 Grace
Harness:    lm-evaluation-harness(EleutherAI)
Backend:    local-completions API 打 vLLM Docker container
量化:       FP8 Dynamic(RedHatAI / Qwen 官方)
Few-shot:   5
Concurrency: 8
Dataset:    ikala/tmmluplus(22,690 題,66 個科目)
lm_eval \
  --model local-completions \
  --model_args base_url=http://localhost:8000/v1/completions,model=$MODEL,tokenizer=$PATH,num_concurrent=8 \
  --tasks tmmluplus \
  --num_fewshot 5 \
  --output_path ~/tmmlu-runs/$MODEL \
  --trust_remote_code

一個地雷:datasets>=4 已經把 loading script 砍了,TMMLU+ 還在用 tmmluplus.py builder script。第一次跑爆 RuntimeError: Dataset scripts are no longer supported。降版 datasets==2.21 就過。如果你跑舊一點的 HF dataset 也踩到一樣的雷,先 pin 版本。


75.07% vs 46.30%,Gemma 一個都沒贏

Gemma 4 26B-A4BQwen 3.6 35B-A3BΔ
總分46.30%75.07%+28.77
STEM54.37%77.89%+23.52
人文41.07%65.23%+24.16
其他41.20%72.14%+30.94
社會科學50.77%80.72%+29.95

51 個 paired 子科目,Qwen 贏 51 個。Gemma 贏 0 個。

對照 2024 年凍結的 TMMLU+ 官方 leaderboard

模型TMMLU+
GPT-588.60
Qwen 3.6 35B-A3B(這次跑)75.07
gpt-oss:120b69.14
Gemini-1.5-pro64.65
Qwen-72B(舊代 Qwen)64.27
Gemma 4 26B-A4B(這次跑)46.30

Qwen 3.6 35B-A3B 用 3B active 打贏舊代 Qwen-72B(72B dense)11 分。Gemma 4 26B 比舊 Qwen-72B 還差 18 分。


台灣專屬題目:以為 Gemma 會贏的地方

我原本的直覺是:Google 在台灣搜尋市場高,繁中索引深,Gemma 應該比訓練資料偏中國的 Qwen 更懂台灣專屬內容。

實測:

科目GemmaQwenΔ
台灣地理40.882.7+41.9
高職自然54.088.9+34.9
高職設計53.386.2+32.9
高職國文66.590.5+24.0
高職數學29.346.7+17.3
傳統中醫臨床41.078.4+37.4
中文語言文學33.776.4+42.7

每一個我抓出來看的台灣專屬科目,Qwen 都贏 17 到 42 分。「Google 有更多繁中資料」的假設碰到實測直接死。

合理推測:Qwen 訓練語料量大到一個程度,就算主體是簡中,跨字體 transfer 到繁中還是比 Google 為 Gemma 挑出來的繁中子集更有用。量大 + 髒 > 量小 + 乾淨——當兩家都不夠認真。


共同死穴:台語

唯二讓兩個模型一起跌的科目:

科目GemmaQwen隨機基準
台語(Hokkien)32.641.925.0

Qwen 還是贏 9.3 分,但 41.9% 只比亂猜高 17 分——任何 production 場景都不能用。

這不是花一個週末 fine-tune 就能解的問題:

  1. 書寫沒標準。台語有 POJ(教會羅馬字)、漢羅、全漢、台羅、注音閩南語——不同社群、不同正字法。
  2. Tokenizer 沒有原生台語 token。Qwen 跟 Gemma 對很多台語字會 fallback 到 byte-level,token 效率極差。
  3. 公開語料太小。PTT 台語板、台文戰線、自由時報台語專欄、台日大辭典加起來大概只有幾百 MB。對 35B 模型完全不夠。

如果你要做台語應用,看 Yentinglin 的 Taiwan-LLM 系列——他們花好幾年蒐集台灣語料。在 Qwen 3.6 上面做 LoRA 不會贏過他們,自己一個人重做也是在重新發明已經被學界做得更好的輪子。


收穫

最花時間的地方

datasets>=4 砍了 loading script。第一次跑直接爆 RuntimeError: Dataset scripts are no longer supported, but found tmmluplus.py。降到 datasets==2.21 就解。如果你跑任何老一點的 HF dataset 而它還在用 builder script,一開始就 pin 版本。

可搬走的診斷方法:paired eval 不能省

單一模型分數沒有 paired baseline 就是噪音。Qwen 3.6 75% 聽起來很猛。Gemma 4 26B 46% 聽起來很爛。但只有同一套 harness、同一台硬體、同一天跑出來的兩個數字,你才知道哪個是模型訊號、哪個是 benchmark 訊號。配對也能讓你看出「分數意外高/低」是模型本身、還是 benchmark 結構造成的。

通用原則

「X 在 Z 任務的訓練資料應該比 Y 多」這種 prior,動手前先跑 paired benchmark。對訓練語料組成的直覺,多半繼承自別人的印象,不是當代模型的實測。我這次 prior 直接錯了 28 分。


結論

April 2026 在地端選繁中模型的 checklist:

  1. 繁中寫作、blog、辯論預設選 Qwen 3.6 35B-A3B FP8。在 DGX Spark 上 3B active 跑得快,TMMLU+ 比 Gemma 高 28 分。
  2. 英文 coding agent 選 Gemma 4 26B-A4BSWE-bench Lite 38.67%、有 audio 多模態、VRAM 較省)。
  3. 台語應用 Yentinglin 的 Llama-3-Taiwan-70B 或接受能力差距。Qwen 跟 Gemma 都不行。
  4. 決定主力模型前先跑 paired benchmark。「哪個中文比較好」這種共識針對當代模型沒人重新校準過——我自己的直覺差了 28 分。

Run config、完整子科目分數、對比 script 都在 GX10 的 ~/tmmlu-runs/ 下。兩個 results_*.json 各 30KB,整套 paired 跑完大概 7 小時。


同系列:

常見問題

TMMLU+ 是什麼?為什麼測繁中要用它?
TMMLU+ 是 iKala 做的繁體中文選擇題 benchmark,22,690 題、66 個科目,從國小到專業考照(律師、醫師、會計師、獸醫)。包含台灣專屬內容像台灣地理、台語、高職國文。其他中文 benchmark(C-Eval、CMMLU)都是簡中、中國語境,TMMLU+ 是少數真的測「這個模型懂不懂台灣」的考題。
Qwen 真的 51 個科目全勝?沒有一個 Gemma 贏的?
對,51/51 全勝。最小差距是邏輯推理(+8.6 分),最大差距是餐飲技術(+43.5 分)。總分 Qwen 75.07% vs Gemma 46.30%,差距 28.77 個百分點。
Google 不是繁中資料比阿里巴巴多嗎?怎麼會輸?
我自己原本也是這個直覺,預設 Qwen 在繁中會輸(簡中為主訓練 + Google 在台灣搜尋市場深耕)。Codex 在 /debate session 打我說「你這直覺沒 benchmark 數據撐」。這次跑就是補數據。結果連台灣地理 +41.9 分、傳統中醫 +37.4 分這種台灣專屬題目,Qwen 都贏。「Google 繁中 corpus 比較好」的假設碰到實測直接破。
兩個模型有共同的死穴嗎?
有,台語(Hokkien)。Gemma 32.6%、Qwen 41.9%——兩個都接近隨機(25%)。台語書寫沒有標準(POJ、漢羅、全漢、台羅混雜),公開語料總共大概只有幾百 MB。fine-tune 救不了,是資料本身不夠。要做台語應用要去找 Yentinglin 的 Taiwan-LLM 系列。