阿里巴巴 Qwen-2.5 模型強勢登場,號稱最強開源 LLM,效能直逼 GPT-4o!深入了解其卓越效能、獨特優勢。

阿里巴巴再次震撼業界,重磅發布了全新的 Qwen-2.5 模型系列 (中文: 通义千问),包含 13 種不同規模與用途的模型,涵蓋數學、程式碼以及通用領域。其中最引人注目的,莫過於 Qwen-2.5 模型在 Live Bench AI 基準測試中,超越了 Llama 3 的 4050 億參數模型,一舉躍升為全球最強的開源模型,實力甚至超越了 Meta 的最新成果。

Qwen-2.5 模型系列主要分為三大類。首先是基礎模型,參數規模從 55 億一路延伸至 720 億。其次是專為程式設計打造的 Qwen-2.5 模型 Coder 版本,提供 15 億、70 億與 320 億三種參數規模。最後則是 Qwen-2.5 模型 Math 版本,同樣提供與 Coder 版本相同的參數選擇。

值得注意的是,在授權方面,除了 30 億與 720 億參數的 Qwen-2.5 模型外,其餘開源模型皆採用 Apache 2.0 授權。目前,這兩個較大與較小規模的 Qwen-2.5 模型尚未釋出,略顯可惜。不過,使用者可以在 Hugging Face 上找到其他 Qwen-2.5 模型,以及相關的授權檔案。您現在就能在 Hugging Face Spaces 上體驗這些 Qwen-2.5 模型,包含數學模型與程式碼模型。相關連結我會放在文章最後。

如何使用 Qwen 2.5

想要在本地端安裝 Qwen-2.5 模型,可以使用 LM Studio。操作非常簡單,您可以參考我之前關於 LM Studio 的教學影片,我會將連結放在說明欄。只需在 LM Studio 中搜尋 Qwen-2.5,就能找到所有新模型及其不同的量化版本。點擊下載後,在 AI 聊天視窗中選擇您下載的 Qwen-2.5 模型,即可輕鬆開始互動。

Qwen-2.5 模型採用了高達 18 兆個 tokens 的資料進行訓練,顯著提升了其在程式碼、數學以及指令遵循方面的知識與技能,並支援超過 29 種語言,以及高達 228K 的上下文長度。特別是 Qwen-2.5 模型 Coder 與 Math 版本,更針對程式碼與數學進行了深度優化,運用了包含 Chain of Thought、Program of Thought 以及 Tool Integrated Reasoning 等先進的推理技術,使其在眾多基準測試中,相較於其他更大規模的模型,展現了卓越的效能。

Qwen (Qwen)
Org profile for Qwen on Hugging Face, the AI community building the future.
Qwen 有許多不同的功能模型可以選擇

測試

在效能方面,720 億參數的 Qwen-2.5 模型表現最為出色,不僅超越了所有開源模型,甚至超越了 Llama 3 的 1450 億與 700 億參數模型,以及 Mistral Large。更令人驚豔的是,Qwen-2.5 模型在許多基準測試中,效能已逼近 GPT-4o。雖然尚未能全面超越,但在大多數情況下,其表現已相當接近,這也是我極力想向大家介紹 Qwen-2.5 模型的原因,它是目前最強大的開源模型。

工作原理: Qwen 2.5 系列參數範圍從 5 億到 720 億個參數。

  • Qwen 2.5 模型在 18 兆個代幣上進行了預訓練。參數大小高達 30 億個,可處理多達 32,000 個輸入令牌;較大的模型可以處理多達 128,000 個輸入標記。所有版本的輸出長度都可以為 8,000 個令牌。
  • Qwen 2.5-Coder 在 5.5 兆個代碼標記上進行了進一步的預訓練。它可以處理多達 128,000 個輸入令牌並產生多達 2,000 個輸出令牌。它有 1.5B 和 7B 版本。
  • Qwen 2.5-Math 對 1 兆個數學問題進行了進一步預訓練,其中包括從網路上抓取並由早期 Qwen 2-Math-72B-Instruct 產生的中國數學問題。 Qwen 2.5-Math 可以處理 4,000 個輸入標記並產生最多 2,000 個輸出標記。它有 1.5B、7B 和 72B 版本。除了解決數學問題外,Qwen 2.5-Math 還可以產生程式碼來幫助解決給定的數學問題。

結果:與具有開放權重的其他模型相比,Qwen 2.5-72B-Instruct 在 14 個基準測試中的 7 個上擊敗了 LLama 3.1 405B Instruct 和 Mistral Large 2 Instruct(1230 億個參數),包括LiveCodeBench 和 Mistral Large 2 Instruct(1230 億個參數),包括LiveCodeBench 、 MATH (解決數學應用問題)和MMLU (回答有關各種主題的問題)。與響應 API 呼叫的其他模型相比,Qwen-Plus 在 MATH、LiveCodeBench 和ArenaHard上擊敗了 LLama 3.1 405B、Claude 3.5 Sonnet 和 GPT-4o。較小的版本也能提供出色的效能。例如,Qwen 2.5-14B-Instruct 在七個基準測試中優於 Gemma 2 27B Instruct 和 GPT-4o mini。

Qwen2.5-coder-32B 現在是 HuggingFace AI 編碼 LLM 的冠軍

Hugging Face - 開放原始碼LLM排行榜

🏆 EvalPlus AI Coder 排行榜

當然,有些人可能會對 Qwen-2.5 模型的來源地感到擔憂,尤其是在資料隱私方面。這也是許多人對於使用這類模型有所顧慮的原因,這點確實令人遺憾。不過,值得注意的是,小型語言模型 (SLMs) 正迅速縮小與大型模型之間的差距。在官方部落格中特別提及了 Qwen-2.5 模型的 30 億參數版本,儘管體積較小,卻取得了令人印象深刻的成果,在 MMLU 基準測試中獲得了超越 65 分的成績。這顯示 Qwen-2.5 模型在關鍵更新方面下了許多功夫,包含支援生成高達 8K 的 tokens、提升處理結構化資料的能力、更優異的 JSON 輸出生成,以及強化了多樣化提示下的角色扮演能力。看到如此小型的模型也能媲美大型模型,實在令人振奮。

Qwen-2.5 模型系列中的程式碼模型 - Qwen/Qwen2.5-Coder-32B-Instruct,專為程式設計任務而設計,例如除錯和提供程式碼建議,如同其他程式碼模型一樣。儘管體積較小,但其效能表現強勁,相較於許多知名的模型,例如 DeepSeek Coder 的 330 億 Instruct 模型,以及舊版的 DeepSeek 模型,表現都相當出色。雖然與最新發布的 DeepSeek 模型相比仍有差距,但 Qwen-2.5 模型在多種程式語言中,皆能超越許多更大規模的模型,使其成為您程式設計的絕佳助手。

Qwen/Qwen2.5-Coder-32B-Instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

目前,320 億參數的程式碼模型仍在準備中,但已發布的 70 億參數基礎模型,相較於其他小型程式碼模型,特別是 StarCoder 和 DS Coder,表現已相當亮眼。雖然尚未能超越 DEC Coder,但絕對值得密切關注。Qwen-2.5 模型 Coder Instruct 版本在 40 種不同的程式語言和程式碼推理任務中表現優異,在基準測試中取得了優異的成績,並在數學任務中也展現了良好的能力。這突顯了 Qwen-2.5 模型在程式設計和數學方面的雙重專長。目前,此版本已開放 Apache 2.0 授權使用,但如同前面提到的,320 億參數版本尚未釋出。開發團隊正致力於挑戰更高階的模型,包含那些專有模型,這點讓我非常期待。

Qwen-2.5 模型在數學、基礎邏輯以及作為聊天模型方面的卓越能力。作為一個開源模型,Qwen-2.5 模型絕對是一個可以本地部署的絕佳選擇,可以作為 Cloud 或甚至是 OpenAI 模型的替代方案。我強烈建議大家親自嘗試看看 720 億參數的 Qwen-2.5 模型

我衷心希望 Alibaba 的開發團隊能夠進一步提升 Qwen-2.5 模型的程式碼能力,這將使其成為市面上最強大的模型之一。但就目前而言,Qwen-2.5 模型已是一款非常出色的模型,我強烈建議您親自體驗。

不想錯過任何關於 AI, 大語言模型以及 AI 程式碼工具的進展,可 follow 我們的 thread: @tentenai_com / @tenten.co


Learn more about Qwen-2.5
更多關於 AI 編碼工具

常見問答 (FAQ)

Q1: Qwen-2.5 模型有哪些主要版本? A1: Qwen-2.5 模型系列主要分為三大類:基礎模型(55億至720億參數)、程式設計專用的Coder版本(15億、70億與320億參數)以及Math版本(同樣提供15億、70億與320億參數)。

Q2: Qwen-2.5 模型的訓練規模有多大? A2: Qwen-2.5 模型採用了高達18兆個tokens的資料進行訓練,支援超過29種語言,並且具有高達228K的上下文長度處理能力。

Q3: Qwen-2.5 模型的效能表現如何? A3: 720億參數的Qwen-2.5模型不僅超越了所有開源模型(包括Llama 3的1450億與700億參數模型),在許多基準測試中的表現已經接近GPT-4o的水準。

Q4: 如何在本地端使用Qwen-2.5模型? A4: 可以通過LM Studio來安裝使用Qwen-2.5模型。在LM Studio中搜尋Qwen-2.5,選擇並下載所需版本,然後在AI聊天視窗中選擇下載的模型即可開始使用。

Q5: Qwen-2.5 Coder版本有什麼特色? A5: Qwen-2.5 Coder版本專門針對程式設計任務最佳化,支援40種不同程式語言,特別適合用於除錯和提供程式碼建議,在多項基準測試中表現優異。

Share this post