隨著量子計算技術日趨成熟,研究人員和企業迫切需要一個能夠有效整合量子處理器(QPU)、圖形處理器(GPU)和中央處理器(CPU)的統一開發平台。NVIDIA CUDA-Q™ 正是為了滿足這一需求而誕生的革命性解決方案,它不僅打破了傳統量子計算的技術壁壘,更為全球量子研究開啟了全新的發展篇章。
什麼是 NVIDIA CUDA-Q
NVIDIA CUDA-Q 是一個開源且「QPU-模組無關」的混合量子–經典加速超級運算開發平台。這個創新平台讓開發者能在同一程式中同時運用 GPU、CPU 和 QPU 資源,並在缺乏量子硬體時利用 GPU 加速模擬,為量子計算研究提供了前所未有的靈活性和效能。
核心功能與技術優勢
CUDA-Q 平台的設計理念圍繞著幾個關鍵特點:統一混合程式模型簡化了量子與經典運算的整合流程,大幅提升研發生產力。其 QPU-模組無關的特性確保與各種量子處理器和量子位元技術相容,並可無縫切換硬體與模擬環境。
在效能表現方面,CUDA-Q 在 GPU 上進行大規模量子電路模擬時,最高可達到相較於 CPU 2500 倍的速度提升,並支援多 GPU 擴展。作為開放生態系統,它可整合現有 AI、HPC 工作流程,並與其他量子工具鏈互操作。此外,該平台還支援量子硬體設計,能夠設計並模擬未來加速量子超級運算系統,並加速結合 AI 的量子應用開發。

性能數據一覽
效能指標 | 數值表現 |
---|---|
GPU 模擬加速 | 最高 2500× CPU |
多 GPU 擴展支援 | 完整支援 |
典型合作案例 | 模擬 165+ qubit;400k 小時 GPU 存取 |
模擬準確度提升 | 錯誤率降低 3.5× |
CUDA-Q 推動全球量子超級運算中心發展
NVIDIA CUDA-Q 平台正在全球範圍內推動量子超級運算中心的突破性發展。這個平台實現了 QPU 與 CPU、GPU 混合運算的統一程式模型,讓全球頂級超級運算中心能夠無縫串接各種硬體與模擬環境,加速研究與開發進程。
國際合作典範
在德國,Jülich Supercomputing Centre 的 JUPITER 超級電腦與 IQM 超導 QPU 結合,使用 GH200 Grace Hopper 架構,專注於強化化學模擬與最佳化應用開發,展示了超級電腦與量子融合的巨大潛力。
日本 AIST 的 ABCI-Q 被譽為世界最大量子研究超級電腦,搭載 QuEra 中性原子 QPU 和 H100 Hopper ×2,020,支援多種量子處理器類型,全力推動量子糾錯與應用研究。
波蘭 PSNC 分區則結合 ORCA Computing 光子 QPU 與 Hopper 新超算分區,專門探索生物、化學與機器學習領域的量子混合工作負載。
高效能模擬與擴展能力突破
CUDA-Q 在 GPU 上的量子電路模擬可達最高 2500 倍 CPU 加速,並透過多 GPU 記憶體聚合突破單卡容量限制。這使得研究人員能在現有超算上模擬超過 165 量子位元的電路,並支援跨節點、跨 GPU 的並行運算,為大規模量子模擬開闢了新的可能性。
實現 2500 倍量子模擬加速的技術奧秘
CUDA-Q 令人矚目的效能提升並非偶然,而是來自於多項精密的技術優化和創新架構設計。
多層次優化策略
在單一 NVIDIA GPU 上,CUDA-Q 即可提供高達 425 倍的加速效果。當使用多 GPU 時,透過記憶體聚合與並行運算,可支援超過 165 qubit 的電路模擬,並將整體加速推升至 2500 倍。
單卡加速主要利用 cuQuantum 庫實現高效矩陣操作,加速量子門演算與狀態向量更新。多卡擴展則使用 nvidia-mgpu
後端,透過 NVLink 聚合多 GPU 記憶體並行計算,突破單卡記憶體限制,提升 qubit 規模。
關鍵優化技術解析
門融合技術:將多個相鄰量子門合併為單一運算步驟,以減少記憶體存取與運算次數。v0.7.1 版本允許自訂融合層級,優化後可再額外獲得 1.3 至 10 倍的速度提升。
自動哈密頓量批次處理:針對 VQE 類應用,CUDA-Q 會將多個哈密頓算符批次送入同一 GPU 處理,降低呼叫次數並提升吞吐量。
改進 JIT 編譯路徑:由原先與量子電路長度二次成長的編譯時間,優化為線性複雜度,顯著縮短內核編譯延遲。
智慧變更檢測:減少每次觀測前的環境變更檢查時間,消除不必要的重編譯開銷,幾乎不再影響觀測呼叫效能。
實際效能驗證
後端版本 | 24 qubit VQE 加速 | 28 qubit VQE 加速 |
---|---|---|
nvidia |
~425× | ~425× |
nvidia-mgpu (v0.7.1) |
2400× | 2900× |
調整融合層級後 | +10× | +1.3× |
量子糾錯與系統設計的最新突破
隨著量子計算規模的不斷擴大,量子糾錯(QEC)技術成為實現實用量子計算的關鍵環節。CUDA-Q 在這一領域也展現出強大的創新能力。
CUDA-Q QEC 庫的全面增強
NVIDIA 推出的 cudaq-qec
庫為量子糾錯研究提供了靈活的擴展框架,支援自定義糾錯代碼與解碼器,便於科研人員快速迭代新型 QEC 演算法。該庫已內建 Steane 碼、重複碼等多種經典 QEC 方案,並提供 C++ 與 Python 接口,大幅降低開發門檻。
AI 驅動的即時解碼革新
與 QuEra Computing 合作開發的基於 Transformer 的 AI 解碼器,利用圖神經網路和注意力機制高效捕捉糾錯資訊間的關聯,顯著提升了 MLE(最可能錯誤)解碼器在高距離碼中的擴展性與準確度。
Quantum Machines 與 NVIDIA 共同推出 DGX Quantum 系統,將 OPX1000 控制器與 Grace Hopper GPU 伺服器以低於 4 微秒的延遲緊密耦合,透過高速光纖互連,實現多解碼單元間的跨節點同步與自適應通信,解決了大規模 Surface 碼在即時糾錯中的「解碼瓶頸」難題。
多 GPU 多 QPU 系統協同
CUDA-Q 的 nvidia-mgpu
與 nvidia-mqpu
後端,可在單節點或叢集環境中聚合多 GPU 與多 QPU 資源,突破單卡顯存限制,支援超過 165 量子位元的聯機模擬。結合 MPI 插件,可靈活接入現有 HPC 設施,提供透明的量子–古典混合加速能力。
產業生態與企業採用狀況
CUDA-Q 平台已經吸引了眾多量子計算領域的重要參與者,形成了一個蓬勃發展的生態系統。
硬體供應商的積極響應
Anyon Technologies 的超導量子處理器已與 CUDA-Q 完整整合,提供企業混合量子–古典雲端解決方案,初期部署於新加坡與韓國資料中心。
ORCA Computing 的光子量子系統整合至波蘭 PSNC 超級運算中心,並使用 CUDA-Q 平台進行模擬與混合運算。
Pasqal 的中性原子量子系統接入 CUDA-Q,為客戶提供 Pulser 程式庫與 CUDA-Q Python/C++ 介面。
軟體生態的蓬勃發展
Fermioniq 的 Ava 張量網路模擬器成為首家第三方 CUDA-Q 後端,支援 50–100 qubit 高效模擬。
Classiq 平台採用 CUDA-Q 來優化量子演算法效能,而 QC Ware 的量子程式庫也可與 CUDA-Q 整合,用於加速量子研究與應用開發。
最新大型量子糾錯與系統設計進展概覽
CUDA-Q QEC 庫的增強功能
NVIDIA 推出的 cudaq-qec
庫為量子糾錯研究提供了靈活的擴展框架,支援自定義糾錯代碼與解碼器,讓科研人員能夠快速迭代新型量子糾錯演算法。該庫已內建 Steane 碼、重複碼等多種經典量子糾錯方案,並提供 C++ 與 Python 介面,大幅降低了開發門檻。
這種模組化設計讓研究團隊能夠專注於核心演算法的開發,而不需要花費大量時間處理底層系統整合問題。
GPU 加速的實時解碼技術
AI 驅動的 Transformer 解碼器
與 QuEra 合作開發的基於 Transformer 的 AI 解碼器,巧妙運用圖神經網路和注意力機制,高效捕捉糾錯資訊間的關聯性。這項創新顯著提升了最大似然錯誤(MLE)解碼器在高距離碼中的擴展性與準確度。在 QuEra 距離-3 MSD 電路測試中,該解碼器在提高 Magic 態保真度的同時,成功保持了更低的延遲表現。
低延遲並行解碼架構
Quantum Machines 與 NVIDIA 共同推出的 DGX Quantum 系統,將 OPX1000 控制器與 Grace Hopper GPU 服務器以低於 4 微秒的延遲緊密耦合。透過高速光纖互連技術,系統實現了多解碼單元間的跨節點同步與自適應通信,有效解決了大規模 Surface 碼在實時糾錯中的「解碼瓶頸」難題。
多GPU多QPU系統協同運作
CUDA-Q 的 nvidia-mgpu
與 nvidia-mqpu
後端能在單節點或集群環境中聚合多 GPU 與多 QPU 資源,突破單卡顯存限制,支援超過 165 量子位元的聯機模擬。結合 MPI 插件,系統可靈活接入現有高效能運算設施,提供透明的量子–古典混合加速能力。
這種架構設計讓研究機構能夠充分利用現有的運算資源,無需大規模重建基礎設施即可獲得量子運算能力。
高距離LDPC與Floquet碼的探索
在高距離量子低密度奇偶校驗(QLDPC)碼方面,CUDA-Q 已整合 GPU 加速的置信傳播解碼器與後處理選項,適用於大規模邏輯位元架構。同時,學術界對動態 Floquet 碼的研究也正在納入 CUDA-Q 實驗流水線,為下一代低開銷糾錯方案奠定堅實基礎。
系統級協同設計要點
閉環延遲控制
從測量到糾錯操作的閉環延遲必須保持在數十微秒以內,否則會導致錯誤累積失效,這對系統設計提出了極高要求。
多級解碼協作
大規模邏輯操作(如晶格外科手術)需要跨解碼器實時通訊,以處理相互關聯的穩定子測量結果,這考驗著系統的協調能力。
實時校準與頻率追蹤
結合實時脈衝級控制與 CUDA-Q 加速的經典計算流水線,系統可動態補償量子位元頻率漂移,確保量子糾錯操作的高保真度。
透過這些技術與系統層面的創新,NVIDIA CUDA-Q 與其生態夥伴正不斷推動大規模、容錯量子計算從理論走向實踐,為未來數百萬量子位元規模的商用量子超算鋪平道路。
已採用 NVIDIA CUDA-Q 的量子計算公司
類別 | 公司名稱 | 技術/整合說明 |
---|---|---|
硬體供應商 | Anyon Technologies | Anyon 的超導量子處理器已與 CUDA-Q 完整整合,提供企業混合量子–古典雲端解決方案,初期部署於新加坡與韓國資料中心 |
硬體供應商 | QuEra Computing | QuEra 的中性原子 QPU 可透過 CUDA-Q SDK 調度,已於 NVIDIA SC24 活動中宣佈支援 |
硬體供應商 | ORCA Computing | ORCA 的光子量子系統整合至波蘭 PSNC 超級運算中心,並使用 CUDA-Q 平台進行模擬與混合運算 |
硬體供應商 | IQM Quantum Computers | 德國 JSC 的 Spark QPU 與 JUPITER 超級電腦連結,採用 CUDA-Q 進行混合運算與教學實驗 |
硬體供應商 | Pasqal | Pasqal 的中性原子量子系統接入 CUDA-Q,為客戶提供 Pulser 程式庫與 CUDA-Q Python/C++ 介面 |
硬體供應商 | Infleqtion | Infleqtion 的中性原子 QPU 已透過 CUDA-Q Dynamics API 進行投資組合最佳化與動態模擬 |
硬體/軟體 | Fermioniq | Fermioniq 的 Ava 張量網路模擬器成為首家第三方 CUDA-Q 後端,支援 50–100 量子位元高效模擬 |
硬體/軟體 | Quantum Brilliance | 其金剛石基 QPU 將整合至 Fraunhofer IAF 超算,並支援 CUDA-Q 混合程式模型 |
硬體/軟體 | Quantinuum | Quantinuum 使用 CUDA-Q 提供 QPU 存取,並在 Azure Quantum 與 QIR 生態中整合 |
硬體/軟體 | IonQ | IonQ Forte 已在 2023 年開始支援 CUDA-Q,並結合化學應用示範端到端混合工作流程 |
軟體供應商 | Rigetti Computing | Rigetti 將允許開發者以 CUDA-Q 程式撰寫與執行於其超導 QPU 上 |
軟體供應商 | Classiq | Classiq 平台採用 CUDA-Q 來優化量子演算法效能 |
軟體供應商 | QC Ware | QC Ware 的量子程式庫可與 CUDA-Q 整合,用於加速量子研究與應用開發 |
軟體供應商 | Zapata Computing | Zapata 的軟體工具鏈支援 CUDA-Q,簡化雜訊量子演算法測試 |
超算中心 | Lawrence Berkeley Lab | LBNL 超算中心已部署 CUDA-Q,用於量子錯誤修正與混合工作負載測試 |
超算中心 | Oak Ridge National Lab | Oak Ridge 國家實驗室支援 CUDA-Q,協同 Quantinuum、Rigetti 等夥伴開發混合工作流程 |
超算中心 | Forschungszentrum Jülich | Jülich 超算中心與 IQM 合作,採用 CUDA-Q 連接 JUPITER 與 Spark QPU |
超算中心 | RIKEN | 日本 RIKEN 研究所加入 CUDA-Q 生態,支援多家量子硬體與模擬後端 |
未來發展趨勢與挑戰
CUDA-Q 平台的成功不僅體現在技術創新上,更在於其對整個量子計算產業發展方向的深遠影響。
技術發展方向
隨著量子位元數量的增加和量子糾錯技術的成熟,CUDA-Q 平台將持續優化其多 GPU 擴展能力和即時糾錯功能。高距離 QLDPC(量子低密度奇偶校驗)碼和動態 Floquet 碼的研究也將進一步納入 CUDA-Q 實驗流水線。
產業化進程加速
通過與 AWS、Azure 等雲端服務整合,CUDA-Q 正在降低量子計算的進入門檻,讓更多研究機構和企業能夠參與量子應用的開發。這種開放策略將有助於加速量子計算從實驗室走向實際應用的進程。
挑戰與機遇並存
儘管 CUDA-Q 平台展現出巨大潛力,但量子計算領域仍面臨著諸多技術挑戰,包括量子位元的穩定性、量子糾錯的效率,以及量子演算法的實用性等。然而,正是這些挑戰為創新提供了無限可能,也為相關企業和研究機構帶來了前所未有的發展機遇。
結語
NVIDIA CUDA-Q 平台的出現標誌著量子計算進入了一個全新的發展階段。通過統一的混合程式模型、強大的 GPU 加速能力,以及開放的生態系統,CUDA-Q 正在為全球量子計算研究和產業化應用奠定堅實基礎。
隨著越來越多的研究機構、企業和開發者加入這個生態系統,我們有理由相信,量子計算將在不久的將來從理論走向實踐,為人類社會帶來革命性的變革。在這個充滿無限可能的量子時代,每一個技術突破都可能成為改變世界的關鍵力量。
FAQ
- 什麼是 NVIDIA CUDA-Q?
- NVIDIA CUDA-Q 是一個開源且與量子處理器(QPU)無關的混合量子—經典運算平台,能統一整合 GPU、CPU 和 QPU 資源。它支援在缺乏量子硬體時使用 GPU 進行高效模擬,實現前所未有的效能提升。
- CUDA-Q 平台的核心技術優勢是什麼?
- CUDA-Q 平台提供統一的混合程式模型,簡化經典與量子運算的整合;能在多 GPU 上模擬超過 165 量子位元。同時,其門融合與自動哈密頓量批次處理技術,顯著提升執行效率。
- CUDA-Q 如何實現最高 2500 倍的量子模擬加速?
- CUDA-Q 利用 NVIDIA cuQuantum 庫進行高效矩陣運算,搭配門融合、自動批處理及 JIT 編譯優化技術。在多 GPU 並行運算下,突破單卡記憶體限制,支援大規模量子模擬。
- CUDA-Q 已在哪些關鍵應用領域成功部署?
- 在德國 Jülich 超算中心進行化學模擬;在 AIST 的 ABCI-Q 創造全球最大量子超級電腦;波蘭 PSNC 在生物、化學以及機器學習的混合量子負載應用上也展現出色效能。
- 量子糾錯技術如何助力實現實用量子計算?
- CUDA-Q 提供專用的
cudaq-qec
糾錯庫,支援量子錯誤修正(QEC)算法開發,並透過 AI 即時解碼技術,顯著提升了高距離碼的糾錯效率和準確度。
- CUDA-Q 提供專用的