隨著本地運行大型語言模型 (LLM) 的需求增加,桌面級 AI 超級計算機成為研究人員、開發者和數據科學家的重要工具。本文將深入比較 NVIDIA 最新推出的 DGX Spark 雙機套裝與 Apple 的 Mac Studio M3 Ultra 512GB 在 LLM 運算速度方面的關鍵差異。這兩款設備代表了不同技術路線的頂尖產品,各有其獨特優勢。
硬體規格與記憶體系統比較
記憶體容量與頻寬
記憶體頻寬是影響 LLM 運行速度的關鍵因素之一。DGX Spark 的記憶體頻寬為 273 GB/s,而每台設備配備 128GB LPDDR5x 統一記憶體。相比之下,Mac Studio M3 Ultra 提供高達 819 GB/s 的記憶體頻寬,約為 DGX Spark 的三倍,並配備了 512GB 的統一記憶體。
在純記憶體頻寬方面,Mac Studio M3 Ultra 具有明顯優勢,這對於 LLM 工作負載(尤其是 token 生成速度)至關重要。然而,兩台 DGX Spark 設備連接在一起時,可以提供更大的總記憶體池,達到 256GB。
處理能力
DGX Spark 搭載了 NVIDIA GB10 Grace Blackwell 超級晶片,包含 20 核心 Arm 處理器(10 個 Cortex-X925 核心和 10 個 Cortex-A725 核心)以及 Blackwell 架構 GPU,提供高達 1,000 TOPS(每秒 1 萬億次操作)的 AI 計算性能(FP4 精度)。
Mac Studio M3 Ultra 配備了 Apple 自研的 M3 Ultra 晶片,提供 32 核心 CPU(24 個效能核心和 8 個節能核心)和 80 核心 GPU,並搭載 32 核心神經網路引擎。

LLM 模型容量與處理能力
模型大小支援
單台 DGX Spark 可以處理參數量高達 200 億的大型語言模型,而通過連接兩台 DGX Spark 系統(即本次比較的雙機套裝),能夠處理高達 405 億參數的更大型模型,例如 Llama 3.1 405B。
Mac Studio M3 Ultra 配備 512GB RAM 能夠處理更大的模型,根據 Apple 的說法,它可以運行參數量超過 600 億的模型。這使得 Mac Studio 在單機模型容量方面具有優勢。
NVIDIA DGX Spark Bundle(2 單位)
- 架構:每單位使用 NVIDIA Grace Blackwell Superchip,結合 Grace CPU 和 Blackwell GPU。
- CPU:每單位 20 核心 Arm(10 Cortex-X925 + 10 Cortex-A725),總計 40 核心。
- GPU:2 個 Blackwell GPU,每個提供 1000 AI TOPS(理論 FP4 TOPS,使用稀疏性功能)。
- 記憶體:每單位 128 GB LPDDR5x,總計 256 GB。
- 記憶體頻寬:每單位 273 GB/s,總計 546 GB/s(理論上,實際視配置)。
- 存儲:每單位 1 或 4 TB NVME.M2,自加密。
- 功率消耗:每單位 170W,總計 340W。
- 尺寸和重量:每單位 150 mm L x 150 mm W x 50.5 mm H,1.2 kg,總計 2.4 kg。
- 操作系統:NVIDIA DGX OS。
- 模型支持:單單位支持至 200 億參數,2 單位可達 405 億參數。
Mac Studio Ultra 512GB RAM
- 晶片:Apple M3 Ultra,基於 3nm 製程,採用 UltraFusion 封裝技術。
- CPU:32 核心(24 效能核心 + 8 效率核心)。
- GPU:80 核心 GPU,支持硬體加速光線追蹤和網格著色。
- 記憶體:512 GB 統一記憶體,頻寬 819 GB/s。
- 存儲:可配置至 8 TB SSD。
- 連接性:Thunderbolt 5,支持超過 2 倍每端口頻寬。
- 功率消耗:最大連續功率 480W。
- 尺寸和重量:7.7 英寸 x 7.7 英寸 x 3.7 英寸,8.0 磅(3.64 kg)。
- 操作系統:macOS,支援 Apple Intelligence。
- AI 性能:適合運行大型模型,如 DeepSeek R1(671 億參數)。

Token 生成速度
在 token 生成速度方面,測試顯示 Mac Studio M3 Ultra 能夠達到約 84-85 個 token/s。相較於前代的 M2 Ultra(58-61 token/s),這是顯著的提升。對於更大的模型,如 Deepseek-r1 等,Mac Studio M3 Ultra 仍然可達到每秒約 17-18 個 token 的處理速度。
DGX Spark 的實際 token 生成速度在搜索結果中沒有具體數據,但基於記憶體頻寬的分析,有觀點認為其可能比 Mac Studio 運行相同模型的速度要慢。這主要是因為 Mac Studio 的記憶體頻寬優勢(819 GB/s vs. 273 GB/s)。
提示處理速度(Prompt Processing)
在提示處理速度方面,情況可能正好相反。Mac 系統在運行大型模型時,對於長提示的處理時間可能較長,特別是對於具有 32K 上下文的大型模型(70B),可能需要數分鐘才能開始生成 token。
DGX Spark 由於其專門為 AI 工作負載優化的 Grace Blackwell 架構,可能在提示處理方面表現更好。這意味著對於需要處理長提示但輸出較短的任務(如摘要、自然語言處理),DGX Spark 可能更具優勢。
軟體生態系統與擴展性
DGX Spark 運行基於 Ubuntu 22.04 的 NVIDIA DGX OS,預裝了完整的 NVIDIA AI 軟體堆疊。其與 NVIDIA 更廣泛的 AI 生態系統,尤其是 DGX Cloud 的無縫集成是其主要優勢之一。用戶可以輕鬆地將模型從桌面遷移到 DGX Cloud 或任何加速雲或數據中心基礎設施,幾乎不需要代碼更改。
Mac Studio 運行 macOS,與 Apple 的 MLX 框架緊密集成。MLX 為 Apple Silicon 提供了優化的性能,使 AI 開發變得更加用戶友好。相較於 NVIDIA 的軟體生態系統,Apple 的系統可能更容易使用,但在專業 AI 開發工具方面可能不如 NVIDIA 豐富。
價格考量
設備 | 價格 |
---|---|
Mac Studio M3 Ultra 512GB | 約 9,499 美元 |
DGX Spark 雙機套裝 | 約 6,000 美元 (每台 3,000 美元) |
從純粹的價格角度來看,DGX Spark 雙機套裝在提供類似(雖然不完全相同)功能的同時,價格約為 Mac Studio 的 63%。

實際應用場景比較
適合 DGX Spark 雙機套裝的場景
- 需要處理超大型模型(高達 405 億參數)的研究和開發
- 偏好 NVIDIA AI 生態系統和工具的用戶
- 需要從桌面到雲端的無縫擴展路徑
- 處理較長提示但輸出較短的任務(如文本摘要、分析)
- 預算有限但需要強大 AI 處理能力的團隊
適合 Mac Studio M3 Ultra 的場景
- 需要最高 token 生成速度的交互式 AI 應用
- 偏好簡單易用的開發環境
- 需要在單一設備上運行超大型模型(超過 405 億參數)
- 對高記憶體頻寬有較高要求的應用
- 同時需要處理創意工作和 AI 研究的專業人士
結論
NVIDIA DGX Spark 雙機套裝和 Mac Studio M3 Ultra 512GB 代表了兩種不同的本地 LLM 計算方案,各有其獨特優勢。
Mac Studio M3 Ultra 憑藉其更高的記憶體頻寬和更大的統一記憶體容量,在單機模型容量和 token 生成速度方面可能表現更優。它的優勢在於能夠在單一設備上運行更大的模型,並且對於需要快速 token 生成的交互式應用可能更為適合。
DGX Spark 雙機套裝則在價格、提示處理速度和生態系統擴展性方面具有優勢。特別是對於需要處理長提示的應用,以及希望與 NVIDIA 的更廣泛 AI 生態系統(包括 DGX Cloud)集成的用戶來說,這可能是更具吸引力的選擇。
最終選擇取決於特定的使用需求、預算限制以及對軟體生態系統的偏好。隨著 AI 計算需求的不斷增長,這兩種解決方案都為本地 LLM 計算提供了強大而獨特的選擇。
限制使用 Mac Studio Ultra 運行大型語言模型的因素
Mac Studio Ultra 在運行大型語言模型 (LLM) 方面展現出優異性能,尤其是搭載 512GB RAM 的 M3 Ultra 版本,但即使這款強大的桌面工作站也面臨一些顯著限制。以下是使用 Mac Studio Ultra 運行 LLM 時的主要限制。
系統記憶體限制
macOS 對 LLM 運行有一些內建限制:
- 根據測試結果,macOS 默認將可用於視頻記憶體的上限設為 384GB,即使配備了完整的 512GB RAM
- 運行大型模型如 DeepSeek-r1(671B 參數)時,需要手動覆蓋這些系統限制才能充分利用全部記憶體
- 在較早的 M2 Ultra 系統中,metal 記憶體(用於 GPU 加速)的上限約為 145GB,這可能影響較大 LLM 的性能
模型大小與量化需求
即使配備 512GB 的頂級配置,Mac Studio Ultra 仍面臨模型大小限制:
- 最新的超大型 LLM 如 DeepSeek-r1 原始大小需要超過 400GB 存儲和接近 450GB 的視頻 RAM
- 要在 Mac Studio Ultra 上運行最大規模的模型,通常需要進行量化(降低模型精度)
- 在不進行量化的情況下,Mac Studio Ultra 難以運行最新的超大型模型,除非採用降低精度的方法
運行速度限制
雖然 Mac Studio Ultra 提供了很高的記憶體帶寬(819GB/s),但在處理某些 LLM 工作負載時仍有速度限制:
模型類型 | 處理速度 | 注意事項 |
---|---|---|
一般模型 | 84-85 token/s | M3 Ultra 配置 |
DeepSeek-r1 等超大模型 | 17-18 token/s | 受記憶體和處理器限制 |
長提示大型模型 (32K上下文) | 需數分鐘開始生成 | 提示處理速度慢 |
擴展性限制
與專用 AI 工作站相比,Mac Studio Ultra 的擴展性較為有限:
- 無法像專業 AI 工作站那樣增加 RAM 或添加更多 GPU
- 硬體配置一旦購買無法升級,對於快速發展的 AI 領域可能很快面臨過時問題
- 無法輕易接入更大的叢集配置,限制了其處理更大規模 AI 工作負載的能力
成本限制
最強大的 Mac Studio Ultra 配置價格高昂:
- 配備 512GB RAM 的 M3 Ultra 價格約為 9,499 美元,僅在硬盤為基本 1TB 的情況下
- 對於個人用戶來說,投入近萬美元購買 AI 開發設備通常超出預算範圍
- 高性能配置主要面向企業或機構用戶,他們更容易證明投資合理性
功耗與散熱考量
雖然相比專用 AI 工作站,Mac Studio Ultra 的功耗相對較低,但在運行 LLM 時仍有一定需求:
- 運行大型 LLM 時,功耗在 160-180 瓦範圍內
- 長時間高負載運行可能面臨散熱挑戰,尤其在持續運行服務器場景
結論
Mac Studio Ultra(尤其是配備 512GB RAM 的 M3 Ultra 版本)無疑是運行本地 LLM 的強大選擇,但仍受到系統記憶體限制、模型大小限制、運行速度限制、擴展性限制、高昂成本和功耗考量等因素的制約。對於需要運行最大規模 LLM 的企業用戶來說,這些限制可能是可接受的,但個人用戶可能需要考慮更具成本效益的替代方案或接受在模型大小和性能方面的妥協。
FAQ
1. NVIDIA DGX Spark 雙機套裝和 Mac Studio M3 Ultra 在 LLM 運算速度方面有何區別?
NVIDIA DGX Spark 雙機套裝能夠處理高達 405 億參數的大型語言模型(LLM),並且在提示處理速度方面更快,但 token 生成速度可能不如 Mac Studio M3 Ultra。而 Mac Studio M3 Ultra 擁有更高的記憶體頻寬(819 GB/s)和更大統一記憶體容量,能運行超過 600 億參數的模型,適合需要最高 token 生成速度的應用場景。
2. 哪種場景適合選擇 NVIDIA DGX Spark 雙機套裝?
NVIDIA DGX Spark 雙機套裝適合需要處理超大型模型(高達 405 億參數)、偏好 NVIDIA AI 生態系統及工具的用戶,或者需處理長提示但輸出較短的任務(如摘要和自然語言分析),且預算有限的團隊。
3. Mac Studio M3 Ultra 有哪些運行 LLM 時的限制?
Mac Studio M3 Ultra 在運行 LLM 時可能受到系統記憶體限制、擴展性限制以及高昂成本等限制,例如 macOS 默認設定僅能使用 384GB RAM,而運行最大規模模型(如 DeepSeek-r1)時,可能需要進行量化處理以降低精度。
4. NVIDIA DGX Spark 雙機套裝和 Mac Studio M3 Ultra 的價格有何差異?
NVIDIA DGX Spark 雙機套裝價格為約 6,000 美元(每台 3,000 美元),而 Mac Studio M3 Ultra 的價格則為 9,499 美元。從價格角度看,DGX Spark 雙機套裝為 Mac Studio 價格的約 63%。
5. 如何選擇適合自己的本地 LLM 運算設備?
選擇需根據需求而定。若需高記憶體頻寬、能快速進行 token 生成的交互式 AI 應用,適合選擇 Mac Studio M3 Ultra。而若需處理長提示、偏好 NVIDIA 生態系統,或需要從桌面到雲端無縫擴展,則應選擇 NVIDIA DGX Spark 雙機套裝。