~/blog/dgx-spark-30w-power-safety-mode

DGX Spark · part 6

[DGX Spark] 過熱、100W 功耗上限、30W 安全模式 — 完整診斷指南

2026-04-02更新於 2026-04-133 分鐘閱讀#gx10#gb10#dgx-spark#power-deliveryEnglish
cat --toc

TL;DR

部分 GX10 出廠帶有 PD controller 缺陷,不管跑什麼負載,整台機器的總功耗都被永久鎖在約 30W。刷韌體無效,NVIDIA 建議直接 RMA。一個指令可以在 30 秒內確認你有沒有中招。

白話版:你的 AI 機器其實在「餓肚子」

NVIDIA DGX Spark(以及它的 ASUS GX10 版本)是一台桌上型 AI 工作站,需要很大的功率——透過 USB-C 線供應最多 180 瓦。可以想成是一台高效能跑車:需要足夠的油壓才能發揮。

有些機器出廠時電源協商晶片就有問題。機器開得起來、看起來正常、AI 任務也跑得動——就是異常地慢。就像一台跑車的油管被捏住了:引擎會轉,但永遠上不了二檔。系統把自己鎖在大約 30 瓦,而不是應有的 180 瓦。

最麻煩的是,所有症狀看起來都像軟體問題。你花好幾個小時調 AI 模型設定、換各種配置、翻 log——但真正的問題是硬體在「餓死」。一個終端機指令(nvidia-smi)可以在 30 秒內告訴你有沒有中招。

如果中了,修法不是調軟體——是保固換新(RMA)。這篇文章告訴你怎麼診斷、以及下一步該做什麼。


先跑這個診斷

隨便給 GPU 一個負載——一個 inference request、矩陣乘法都行——然後:

nvidia-smi --query-gpu=power.draw,utilization.gpu,clocks.sm --format=csv,noheader

兩種結果:

正常:

35.65 W, 96 %, 2522 MHz

30W 安全模式:

4.80 W, 2 %, 2411 MHz

在安全模式下,GPU 利用率接近零,不管你丟多少工作進去。不是過熱降頻——是 PMIC 在電源層面就把你鎖住了。

我這台在跑 Qwen3.5-35B-A3B-FP8 生成 300 tokens 的時候:

power.draw = 35.65 W  |  utilization.gpu = 96%  |  clocks.sm = 2522 MHz
throughput  = ~50 tok/s

沒有 throttling,正常。

根本原因:PD Controller Firmware 協商失敗

GX10 透過 USB-C PD 3.1(180W EPR)供電。PD controller 要跟 240W 變壓器協商,才能解鎖高功率模式(20V/5A 以上或 28V)。

問題機器的 PD controller 這個協商會靜默失敗。變壓器插著,機器也開得起來,但 PD 從來沒有升到高功率,PMIC 就把整個 power rail 鎖在約 30W。

dmesg 裡會看到:

Detected insufficient power on the PCIe slot (27W)

這個訊息會出現在多個 Mellanox NIC 上——代表是全機的電源餓死,不是單一元件的問題。

什麼方法沒用

ASUS 的官方建議是 PD firmware 的「double flash」:

刷韌體 → 重開 → 再刷 → 再重開

NVIDIA Developer Forums 的帖子裡有人照著做,throttling 沒解。NVIDIA support 的結論是:硬體缺陷,直接 RMA

軟體觸碰不到這個問題的根源。PD controller 本身壞掉了。

另一個 5W 鎖死(不同問題,可以修)

還有另一種情況值得知道:GPU 卡在 5W、利用率 0%,原因是 driver 版本太舊(550.54.15 + CUDA 12.4)。

這個是軟體問題:

sudo apt dist-upgrade
sudo fwupdmgr refresh && sudo fwupdmgr update

升到 Driver 580.x + CUDA 13.0 就解了,2026 年 1 月確認 fixed。

如果 GPU 利用率低但不是完全歸零,先確認 driver 版本,別急著認定是硬體問題。

韌體版本

目前最新韌體:BIOS v0103(2026/03/18)

SOC / 0x305
EC  / 2.78.18.3
PD  / 0x507

我這台目前是 PD 0x500,有空再更新。沒有 30W 症狀的話不急。如果已經在安全模式,更新 PD firmware 大概也救不了,但 RMA 之前還是做一次排除看看。

2026 年社群爭議:Carmack 批評 + 100W 問題

2026 年 4 月,John Carmack 公開批評 DGX Spark 效能遠低於宣稱的 1 PFLOPS sparse FP4。NVIDIA 開發者論壇隨後湧入大量使用者反映三類問題:

症狀原因嚴重度能修嗎
功耗鎖在 ~30W,利用率 0%PD controller 硬體缺陷致命❌ 需 RMA
功耗上限 ~100W(額定 240W 的不到一半)散熱不足 → thermal throttling⚠️ 改善散熱可緩解
GPU 顯示 5W / 0%,但 dmesg 正常Driver 550.x bug✅ 升級 driver

100W 問題和 30W 問題是不同的。 30W 是 PD controller 出廠缺陷(永久性的),100W 是 thermal throttling(環境相關的)。如果你的機器在負載下功耗穩定在 100W 左右且 GPU 溫度接近上限:

nvidia-smi --query-gpu=power.draw,temperature.gpu,clocks.throttle_reasons.sw_thermal_slowdown --format=csv,noheader

看到 Active 表示是散熱降頻。改善方法:

  • 確保進風口沒有被遮擋
  • 室溫控制在 25°C 以下
  • 考慮外接風扇對準機身底部
  • 垂直擺放比水平好(對流)

注意: NVIDIA 官方 CES 2026 軟體更新宣稱效能提升 2.5 倍。如果你在用舊版 DGX OS,先更新再判斷。

這次的收穫

最浪費時間的地方: 30W 問題是靜默的。機器開得起來、指令跑得動、requests 也服務得了——就是慢。沒有直接量 power.draw + utilization.gpu 的話,看起來完全像 vLLM 設定的問題。

可以複用的診斷思路: 任何新硬體上跑出來的 inference 速度異常,先在負載下同時量 power.drawutilization.gpu。利用率高但功耗遠低於 TDP,先查電源鏈,再調軟體。

一句話結論: 看起來像設定問題的硬體缺陷最費時,因為軟體側的調試空間是無限的。

Checklist

  1. 在 GPU 負載下跑 nvidia-smi --query-gpu=power.draw,utilization.gpu,clocks.sm --format=csv,noheader
  2. 利用率低 → 先確認 driver 版本,升到 580.x + CUDA 13.0
  3. 利用率高但速度異常慢 → 查 dmesg 有沒有 30W 的 signature
  4. 確認 30W → 做 ASUS 的 PD firmware double flash,沒用就 RMA
  5. 無論如何都更新到 BIOS v0103(PD 0x507)——其他使用者回報更新後溫度有下降

系列其他文章:

相關深入分析:

常見問題

怎麼確認我的 DGX Spark / GX10 是不是卡在 30W 安全模式?
隨便跑一個 GPU 負載,然後執行:nvidia-smi --query-gpu=power.draw,utilization.gpu,clocks.sm --format=csv,noheader。正常的機器在負載下顯示約 35W、96% 利用率。30W 安全模式的機器顯示約 5W、利用率接近零,不管跑什麼都一樣。
GX10 / DGX Spark 的 30W 安全模式是什麼原因造成的?
PD(Power Delivery)controller 有缺陷,導致 USB-C PD 3.1 跟 240W 變壓器的協商靜默失敗。機器能正常開機,但 PD 從來沒有升到高功率模式,PMIC 把整個 power rail 鎖在約 30W。dmesg 裡會看到 'Detected insufficient power on the PCIe slot (27W)'。
30W 安全模式可以用韌體更新修嗎?
不行。ASUS 建議做 PD firmware 的 double flash,但受影響的用戶回報 throttling 沒解。NVIDIA support 的結論是硬體缺陷,需要 RMA。可以先更新到 BIOS v0103(PD 0x507)排除看看,但如果問題還在就準備 RMA。
我的 GX10 GPU 顯示 5W 和 0% 利用率,是 30W 安全模式嗎?
不一定。有另一個軟體 bug:舊版 driver(550.54.15 + CUDA 12.4)會讓 GPU 卡在 5W/0%。升到 Driver 580.x + CUDA 13.0 就修了。先查 driver 版本。升級後問題還在的話,才可能是硬體 PD controller 缺陷。
DGX Spark 過熱怎麼辦?John Carmack 說的 100W 問題是真的嗎?
Carmack 和多位開發者反映 DGX Spark 在持續負載下功耗被限制在 100W(額定 240W 的不到一半),伴隨過熱和不預期關機。這可能是三種不同問題:(1) 30W PD controller 缺陷(硬體,需 RMA)、(2) 100W 散熱降頻(thermal throttling,正常保護機制但限制效能)、(3) 5W driver bug(軟體,可升級修復)。用本文的 nvidia-smi 診斷指令可以在 30 秒內區分。
DGX Spark 值得買嗎?這麼多問題。
供電和散熱問題影響部分批次,不是全部。能正常運作的機器跑 Gemma 4 26B MoE 可達 52 tok/s、128GB 統一記憶體能放下大部分模型。買之前先確認退換貨政策,收到後第一件事跑 nvidia-smi 診斷。