Google在 AI 的領先地位似乎日益鞏固。繼先前令人印象深刻的 Gemini 2.0 之後,Google近期再度投下震撼彈,推出了全新的 Gemini 2.5 Pro Experimental 03-25 模型。從初步的觀察來看,Gemini 2.5 Pro 在各方面的表現都極其出色,無論是反應速度、實際性能、基準測試成績,幾乎全面超越了市場上現有的其他模型。

這是款堪稱史上最強大的 AI 模型 - Gemini 2.5 Pro 不僅在各項基準測試中超越了所有其他模型,經過實際測試,它能夠一次性完成一些極其令人印象深刻的演示,其能力令人驚嘆。

Gemini 2.5: Our most intelligent AI model
Gemini 2.5 is our most intelligent AI model, now with thinking.

Gemini 2.5 Pro:專為複雜問題設計的「思考模型」

根據Google的描述,Gemini 2.5 Pro 是一個「思考模型」(Thinking Model),旨在解決日益複雜的問題。作為 2.5 系列的首個模型,Gemini 2.5 Pro Experimental 版本在多個常見基準測試中取得了顯著的領先優勢,尤其在推理和程式碼能力方面表現突出。

Gemini 2.5 Pro 一經發布,便迅速登頂 LM Arena 排行榜首位,超越了包括 GPT-4.5 和 DeepSeek 在內的眾多頂尖模型。這再次印證了Google在大型語言模型領域的強勁勢頭。

基準測試 (Benchmark) Gemini 2.5 Pro OpenAI O3 Mini High GPT-4.5 Claude 3.7 Sonic
Humanities Last Exam 領先 次之 - -
AIME (數學) 領先 次之 較差 尚可
LiveCodeBench (程式碼) 尚可 領先 - -
AdrPolyglot (程式碼) 領先 次之 - -
雖然 Gemini 2.5 Pro 在某些程式碼基準測試(如 LiveCodeBench)上略遜於 OpenAI 的 O3 Mini,但在數學(AIME)和另一個程式碼基準 AdrPolyglot 上表現優異,尤其在 OpenAI 自家建立的 Humanities Last Exam 基準上取得勝利,更是意義重大。

Gemini 2.5 Pro 的驚人能力:魔術方塊測試

以一個互動式 3D 魔術方塊為例。使用者可以生成任意尺寸的魔術方塊,例如 3x3 或 4x4,甚至高達 10x10。透過 Gemini 2.5 Pro 生成的模擬器,不僅可以打亂魔術方塊,更能精確地保持每個色塊在旋轉過程中的正確位置和顏色。當我們嘗試打亂一個 10x10 的魔術方塊,可以看到所有顏色都正確地保持其位置,視覺效果極佳。更令人難以置信的是,Gemini 2.5 Pro 能夠即時解開這個被打亂的魔術方塊,使用者可以觀看整個求解過程。這項任務對於其他市面上的模型來說極具挑戰性,許多模型甚至無法正確渲染或在旋轉時保持顏色一致性,但 Gemini 2.5 Pro 卻能輕鬆應對,充分展示了其卓越的空間推理和狀態維持能力。

領先業界的基準測試表現

Gemini 2.5 Pro 的強大不僅體現在特定演示上,更在多項標準化基準測試中獲得驗證。根據最新的 LM Arena 排名(基於人類評審對模型輸出的偏好),Gemini 2.5 Pro 以 1443 的 ELO 分數穩居榜首,顯著領先第二名的 Grok 3 Preview(1404 分)。

Gemini 2.5 Pro 作為一個「思考模型」(Thinking Model),它在生成最終答案前會輸出一系列「思考」過程的 token,嘗試不同的解決方案。這種方法已被證明在編碼、推理、數學和邏輯等需要可驗證結果的任務上表現更佳。

以下是 Gemini 2.5 Pro 與其他頂尖模型在部分關鍵基準測試上的表現比較:

基準測試 (Benchmark) Gemini 2.5 Pro O3 Mini GPT-4.5 Clod 3.7 Sonic Grok 3 Beta DeepSeek R1
Humanities Last Exam (no tools) 18.8% 14% - - - -
GPT-QA Diamond (Science) 84% 79% - - - -
AIME 2025 86.7% 86.5% - - - -
AIME 2024 81.2% 76.2% - - 87.7%* -
LiveCodeBench 78.8% 80.7% - - - -
AdrPolyglot (Coding) 93.6% 88.9% - - - -
MMMU 73.9% 68.9% - - - -
MRCR (Long Context, up to 1M) 極高 - - - - -

註:Grok 3 Beta 在 AIME 2024 上透過多次嘗試獲得更高分。

從表格中可以看出,Gemini 2.5 Pro 在多個領域,特別是科學推理、部分數學競賽以及編碼(AdrPolyglot)和長文本理解(MRCR)方面,都展現了領先或極具競爭力的水平。尤其值得一提的是,Gemini 2.5 Pro 支援高達一百萬 token 的上下文窗口,這使其在處理大量程式碼或文件時具有巨大優勢。

Gemini-2.5-Pro-Exp-03-25 目前是 LLMarena 的第一名

Gemini 2.5 Pro 的核心特性與存取方式

Gemini 2.5 Pro 目前作為實驗性模型,可在 Google AI Studio 中免費試用。它不僅速度快,而且功能強大。

以下是 Gemini 2.5 Pro 的一些關鍵特性:

特性 描述
模型名稱 Gemini 2.5 Pro Experimental
知識截止日期 2025 年 1 月
延遲 在 AI Studio 中顯示
速率限制 存在限制,但實際使用中較少遇到
Token 數量 高達 1,000,000 tokens
可調參數 Temperature (溫度)
工具支援 Function Calling, Structured Output, Code Execution, Search (整合 Google 搜尋)
安全設定 可調整

使用者可以利用其強大的功能,例如函式呼叫和程式碼執行,來建構複雜的應用程式。

Google領先的秘密:數據、科學與硬體的整合優勢

為何Google能如此快速地推出性能強大且(預期)成本低廉的模型如 Gemini 2.5 Pro?關鍵在於其在三個核心領域的獨特整合優勢:

核心領域 Google的優勢 其他公司狀況
數據 數十年網路營運累積的龐大、多樣化數據 需依賴 DataCurve、ScaleAI 等數據供應商,或自行收集數據
科學 深厚的機器學習研究歷史,頂尖科學家團隊 OpenAI、Anthropic、DeepSeek 等專注於模型研究,但其他環節需合作
硬體 自主研發 TPU (Tensor Processing Unit),軟硬體協同最佳化 大多依賴 Nvidia GPU;Grok(Q)、Cerebras 等專注於特定用途的 AI 加速晶片

Google是唯一一家同時在數據、科學和硬體三個領域都擁有深厚積累和自主能力的巨頭。這種緊密的內部協同,讓科學家可以與硬體工程師合作,針對自家的 TPU 晶片優化 Gemini 2.5 Pro 等模型,無需像其他公司那樣依賴通用硬體(如 Nvidia GPU)或第三方晶片。同時,龐大的自有數據為模型訓練提供了無可比擬的資源。

這種垂直整合的策略使得Google能夠實現:

  • 極致的速度與效率: 自有硬體優化帶來驚人的推理速度,如 Gemini Flash 的表現遠超同級模型。
  • 潛在的成本優勢: 控制硬體和訓練過程,使得Google有潛力提供極具競爭力的價格(Gemini Flash 已證明這一點,其價格比性能相近的對手低數十倍)。
  • 更快的創新週期: 內部協作加速了從研究到產品部署的過程。

相比之下,即使是蘋果,雖然擁有強大的軟硬體整合能力,但在 AI 所需的數據和特定類型 AI 加速硬體方面佈局不足,導致其在當前 AI 競賽中處於追趕狀態。


創意無限:從遊戲到專業模擬

Gemini 2.5 Pro 的能力遠不止於此,它可以根據提示一次性生成各種複雜且具創意的應用:

  • 強化版貪食蛇遊戲: 生成了一個使用 PyGame 開發的貪食蛇遊戲,但加入了動態視覺效果(發光軌跡、背景脈動、粒子爆炸)、特殊食物賦予的暫時能力(加速、反向控制、雙重視覺、時間減慢)、蛇身隨長度進化(生物機械紋理、顏色變化),甚至還有程序生成的障礙物和 AI 對手蛇。僅需單一提示,Gemini 2.5 Pro 便能創造出如此視覺豐富且機制複雜的遊戲。
  • 簡易飛行模擬器: 僅用「創建一個簡單的飛行模擬器」的提示,Gemini 2.5 Pro 就生成了一個可用的基本飛行模擬器,包含加速、方向控制、地面陰影和一些霧化效果。雖然簡單,但展示了其快速生成基本框架的能力。
  • Reddit 網站仿製: 透過簡單指令「在一個檔案中重建 Reddit 網站,參考 Reddit 樣貌」,Gemini 2.5 Pro 生成了一個雖然看起來像舊版 Reddit,但包含帖子、評論、加入社群等基本結構的頁面。
  • 互動式 3D 環面紐結模擬: 生成了一個使用 Three.js 的環面紐結(Torus Knot)模擬器,並配備了 GUI 滑桿,允許使用者即時調整半徑、管徑、分段數、P/Q 參數、旋轉速度、顏色、線框模式、光澤度、透明度、光照等多種參數,極具互動性和探索性。
  • 螞蟻農場模擬: 創建了一個模仿經典玩具的螞蟻農場模擬。最初版本是 2D 視角但在 3D 環境渲染,展示螞蟻挖掘、搬運食物。隨後根據要求,Gemini 2.5 Pro 加入了控制項,允許使用者調整螞蟻數量、挖掘速度、食物生成率、時間、基質(沙子/凝膠)等,甚至還能將其轉換為 3D 版本。
  • 病毒攻擊細胞模擬: 生成了血液中病毒攻擊細胞的模擬。包含紅血球、白血球和病毒,並可透過滑桿調整病毒數量、複製速率、類型(標準、侵略性、隱匿、快速複製)、白血球數量和移動速度、血液流速等。同樣地,Gemini 2.5 Pro 也能根據要求將此模擬轉換為 3D 版本,提供更直觀的視覺效果。
  • 玩具手術模擬器: 一個有趣的小遊戲,允許使用者使用手術刀進行切割,並有精準度和穩定性評分,還可以進行縫合。

這些範例都證明了 Gemini 2.5 Pro 能夠理解複雜需求,並在一次提示(或少量後續調整)下生成功能性、互動性強且視覺效果出色的應用程式。

總結:Gemini 2.5 Pro 重新定義 AI 編碼能力

綜合來看,Gemini 2.5 Pro 無疑是目前所見過的最令人印象深刻的編碼模型。它不僅在基準測試中名列前茅,更在實際的複雜應用生成任務中展現出驚人的「一次成功」能力。其處理複雜視覺模擬、遊戲邏輯、互動介面以及支援超長上下文窗口的能力,使其遠超許多現有模型。對於開發者和創作者而言,Gemini 2.5 Pro 的出現預示著 AI 輔助開發將進入一個全新的階段。

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...