近日,Qwen 3 正式推出,這款由阿里巴巴打造的完全開源且開放權重的模型,以其卓越的性能震驚業界。作為一款旗艦級產品,Qwen 3 235B(擁有2350億參數,其中220億為活躍參數)在多項基準測試中表現出色,甚至與頂尖閉源模型如 Gemini 2.5 Pro 展開激烈競爭。本文將深入剖析 Qwen 3 的性能數據,並展示其在編碼、代理任務及其他領域的強大潛力,同時介紹其獨特的混合思維模式如何為用戶帶來前所未有的靈活性。
Qwen 3 235B:旗艦模型的基準測試霸主
Qwen 3 235B 是這一系列中的頂級型號,採用混合專家(MoE)架構,總計2350億參數,每次推理僅啟動220億活躍參數。這使其在高效運算與強大性能之間取得了完美平衡。以下是其與前沿模型(如 O1、DeepSeek R1、Grok 3 Beta、Gemini 2.5 Pro 和 O3 Mini)的基準測試對比:
| 基準測試 | Qwen 3 235B | Gemini 2.5 Pro | DeepSeek R1 | O1 | O3 Mini |
|---|---|---|---|---|---|
| Arena Hard | 95.6 | 96.4 | 85.5 | 91.0 | 87.3 |
| AIME '24 | 85.7 | 92.0 | 71.0 | 80.0 | 76.0 |
| AIME '25 | 81.5 | 86.7 | 70.0 | 78.0 | 74.0 |
| LiveCodeBench | 70.7 | 70.4 | 37.6 | 65.0 | 60.0 |
| CodeForces Elo | 2056 | 2001 | 1950 | 1980 | 1900 |
| BFCL (功能調用) | 70.8 | 62.9 | 60.0 | 64.0 | 58.0 |
從數據中可見,Qwen 3 235B 在 LiveCodeBench(70.7 vs 70.4)和 CodeForces Elo(2056 vs 2001)上超越了 Gemini 2.5 Pro,尤其在功能調用(BFCL)測試中以70.8對62.9大幅領先。這表明 Qwen 3 在編碼和代理任務優化方面表現尤為突出。雖然 Gemini 2.5 Pro 在 Arena Hard 和 AIME 測試中略勝一籌,但差距並不明顯,顯示 Qwen 3 已接近甚至在某些領域超越了這一業界標杆。
Qwen 3 30B:高效能的輕量級選擇
除了旗艦型號,Qwen 3 30B(300億參數,30億活躍參數)同樣令人驚豔。這款混合專家模型因其極高的運算效率,成為本地運行設備的理想選擇。以下是其與其他模型的基準對比:
| 基準測試 | Qwen 3 30B | Qwen 2.5 72B | Gemma 3 27B | DeepSeek V3 | GPT-4o (11月) |
|---|---|---|---|---|---|
| Arena Hard | 91.0 | 85.0 | 80.0 | 85.5 | 85.3 |
| AIME '24 | 80.0 | 70.0 | 65.0 | 75.9 | 11.0 |
| AIME '25 | 70.0 | 60.0 | 55.0 | 70.0 | 7.0 |
| LiveCodeBench | 62.0 | 50.0 | 45.0 | 37.6 | 32.0 |
Qwen 3 30B 在所有測試中均顯著優於前代 Qwen 2.5 72B、Gemma 3 27B、DeepSeek V3 及 GPT-4o,尤其在數學(AIME)和編碼(LiveCodeBench)領域展現出驚人實力。僅30億活躍參數即可實現如此性能,使其成為高效能與低資源需求的典範。
混合思維模式:Qwen 3 的獨特優勢
Qwen 3 引入了創新的混合思維模式,讓用戶能根據任務需求靈活調整模型的推理深度。這種模式分為兩種狀態:
- 思維模式:模型會逐步推理,適合處理複雜問題,如數學證明或多步編碼任務。隨著分配的token數量增加,性能平滑提升。例如,在 AIME '24 中,非思維模式得分為75,而啟用更多思維token後可提升至85.7。
- 非思維模式:提供快速直接的回答,適用於簡單查詢或即時操作,無需過多計算資源。
這種設計允許用戶精確控制「思維預算」,在成本與推理質量之間找到最佳平衡。例如,在「氛圍編碼」(vibe coding)場景中,開發者可為複雜功能開發分配更多思維資源,而對於簡單的終端命令則採用非思維模式,極大提升效率。
優化代理與工具調用:MCP的完美搭檔
Qwen 3 在代理任務和工具調用(MCP,Model-Controller-Protocol)方面表現卓越。其 BFCL 得分顯示,即使是較小的 Qwen 3 32B 密集模型(70.3),也大幅超越 Gemini 2.5 Pro(62.9)。這種優勢源於其在推理過程中無縫整合工具調用的能力。例如,在提取GitHub星星數並繪製圖表的任務中,Qwen 3 32B 能在單次推理中多次調用工具,完成數據獲取和圖表生成,展現出極高的實用性。
與 Zapier 的 MCP 服務結合後,Qwen 3 可連接超過7000個應用程序,無需編寫代碼即可實現自動化工作流。無論是文件整理還是數據分析,這款模型都能快速適應並高效執行。
模型家族:從輕量到旗艦的多樣選擇
Qwen 3 系列包括兩款混合專家模型和六款密集模型,滿足不同需求:
- Qwen 3 235B:2350億參數,220億活躍參數,128K上下文長度,適合高性能應用。
- Qwen 3 30B:300億參數,30億活躍參數,128K上下文長度,高效本地運行首選。
- 密集模型:從32B到0.6B不等,8B及以上型號支持128K上下文,4B及以下為32K。
這些模型在Apache 2.0許可下完全開源,可通過 LM Studio、Ollama 等平台立即下載使用。
訓練背後的秘密:36萬億token的數據力量
Qwen 3 的成功離不開其強大的訓練流程。相較於 Qwen 2.5 的18萬億token,Qwen 3 使用了36萬億token,涵蓋119種語言。數據集不僅來自網絡,還包括PDF類文檔(通過 Qwen 2.5 VL 提取文本)及合成數據(由 Qwen 2.5 Math 和 Qwen 2.5 Coder 生成)。預訓練分三階段完成,後訓練則採用四階段管道,融合長鏈推理與快速響應能力。
結語:開源AI的新標杆
Qwen 3 以其卓越的基準測試表現、靈活的混合思維模式和強大的代理能力,重新定義了開源模型的潛力。無論是旗艦 Qwen 3 235B 還是輕量級 Qwen 3 30B,它們都在編碼、數學和功能調用領域展現出與 Gemini 2.5 Pro 匹敵甚至超越的實力。對於開發者和企業而言,這款模型不僅是技術突破,更是實用工具的典範。
FAQ
- 什麼是 Qwen 3 模型?
- Qwen 3 是阿里巴巴推出的開源 AI 模型,具備 2350 億參數中的 220 億活躍參數,採用混合專家架構(MoE)。該模型在多項基準測試表現優秀,尤其在編碼、數學推理及功能調用方面。
- Qwen 3 如何在性能上與 Gemini 2.5 Pro 相比?
- Qwen 3 235B 在多個測試中接近或超越 Gemini 2.5 Pro,例如在 LiveCodeBench 和 CodeForces Elo 測試中分別以 70.7 和 2056 的分數領先。此外,其功能調用性能(BFCL)也有明顯優勢。
- Qwen 3 的混合思維模式有何優勢?
- Qwen 3 引入了「混合思維模式」,可根據任務需求調整推理深度:複雜問題可使用「思維模式」深入推理,簡單查詢則可用「非思維模式」快速響應,用戶可靈活分配思維資源,提升效率。
- Qwen 3 30B 適合哪些場景使用?
- Qwen 3 30B 因其高效能與僅需 30 億活躍參數,非常適合資源有限的本地運行環境。此外,它在數學(AIME)和編碼(LiveCodeBench)任務中表現顯著優於其他輕量級模型。
- 如何獲取與使用 Qwen 3?
- Qwen 3 在 Apache 2.0 許可下完全開源,用戶可通過 LM Studio、Ollama 等平台免費下載使用。開發者亦可整合其功能到自己的業務中,以提升工作效率與創新能力。

探索並解鎖 Qwen 3 的無限潛力,這款功能強大的開源模型將助您提升效率與創新能力!如果您希望將 AI 集成到業務流中並實現自動化工作流,請即刻預約免費會議,與 Tenten AI 的專家團隊攜手合作。我們的專業服務讓企業加速數字化轉型,點擊 這裡 預約您的免費顧問諮詢!
