Google 近期推出了 Gemini 2.5 Flash 的預覽版本,這款模型被譽為一款出色的全能型 AI 模型。然而,真正讓它脫穎而出的並非其卓越的性能,而是其極具競爭力的定價策略。Gemini 2.5 Flash 的定位是一款低延遲、高成本效益的工作主力模型,專為處理高流量、即時應用而設計,在聊天機器人、數據分析以及代理工作流程等領域展現出強大的潛力。

這款新模型基於 Gemini 2.5 系列的基礎,繼承了其在高級推理方面的優勢,並旨在提供與 Gemini 2.5 Pro 等大型模型相媲美的質量,同時實現更快的處理速度和顯著降低的成本。這無疑是 AI 領域向前邁出的重要一步。

Start building with Gemini 2.5 Flash- Google Developers Blog
Gemini 2.5 Flash, is now in preview, offering improved reasoning while prioritizing speed and cost efficiency for developers.

Gemini 2.5 Flash 的定價優勢

Gemini 2.5 Flash 提供了兩種不同的定價層級,使其在成本效益方面具有顯著優勢:

定價模式 每百萬輸入 Token 費用 每百萬輸出 Token 費用
思考模式 $0.15 $3.50
非思考模式 $0.15 $0.60

對於需要進行複雜推理的應用,思考模式 的定價已經非常具有吸引力。而對於不需要深度思考的即時應用,非思考模式 的輸出 Token 費用更是低至驚人的 $0.60,這對於需要處理大量輸出數據的應用來說,無疑是巨大的成本節省。Google 明確表示,Gemini 2.5 Flash 的推出旨在為下一代代理工作流程、聊天機器人以及各種即時應用提供強大的動力。

2.5 Flash 的各項指標與其他領先型號相當,但成本和尺寸卻僅為其他領先型號的一小部分。

提升的請求限制與基準測試表現

除了誘人的定價,Google 團隊還提高了 Gemini 2.5 Flash 的每日請求限制。在免費層級下,用戶現在可以獲得每天約 500 次的請求額度,這比之前的限制有了顯著提升。

Gemini 2.5 Flash 為 Google 的成本品質帕累托前緣增加了另一個模型。 *

在基準測試方面,Gemini 2.5 Flash 展現出與其體積和定價不符的強勁性能。儘管其上下文窗口為 100 萬 Token,但與 OpenAI 的 O4 Mini、Cloud 3.7 Sonnet、Graph 3 Beta 以及 DeepSeek R1 等其他模型相比,它在大多數情況下都表現出色。雖然在 LiveCodeBench 測試中略有落後,但在多語言處理、長上下文理解、數學和科學問題解決等方面,Gemini 2.5 Flash 均超越了這些競爭對手。在程式碼生成方面,它雖然稍遜一籌,但考慮到其定價優勢,它無疑是 Cloud 3.7 Sonnet 的一個優秀替代方案。

隨著思考預算的增加,推理品質得到提升。

在 Google AI Studio 中體驗 Gemini 2.5 Flash

現在,用戶可以在 Google AI Studio 中輕鬆訪問 Gemini 2.5 Flash 模型。只需點擊下拉菜單,即可看到新的 2.5 Flash 預覽選項。選擇後,您可以選擇使用不同的模式,包括 思考模式,甚至可以設定思考預算,以便在不需要完整 思考模式 功能時使用更經濟的選項。

實際應用測試:從前端開發到邏輯推理

為了全面評估 Gemini 2.5 Flash 的能力,我們進行了一系列不同類型的提示測試,涵蓋了從推理、前端開發到數學問題解決等多個領域。

前端開發能力:創建現代筆記應用

我們首先要求 Gemini 2.5 Flash 為一個現代筆記應用創建前端程式碼,該應用應具備添加便利貼的功能,並評估其在構建用戶界面、處理 UI 和 UX 設計邏輯方面的能力。

測試結果令人驚喜。Gemini 2.5 Flash 成功生成了便利貼應用的第一個版本,其外觀令人印象深刻,並且功能正常。用戶可以添加不同類型的筆記,支持拖放功能,甚至可以添加不同的顏色。特別值得一提的是,它還添加了鎖定筆記的功能,這是一個非常實用的細節。儘管在顏色下拉菜單的文本顏色等細微之處仍需調整,但總體而言,Gemini 2.5 Flash 在生成這個功能先進的便利貼應用方面表現出色,成功通過了這項測試。

程式碼實現能力:康威生命遊戲的 Python 實現

接下來,我們測試了 Gemini 2.5 Flash 在程式碼實現方面的能力,要求它創建康威生命遊戲的 Python 實現。這是一個程式碼模擬終端應用程式類別的測試,旨在評估模型返回 Python 腳本以及生成演算法設計的能力。

Gemini 2.5 Flash 成功輸出了 Python 程式碼,並且令人驚訝的是,它還生成了可用的模式列表,這是大多數模型所不具備的功能。我們選擇了滑翔機模式並運行了模擬,結果在命令提示符或終端中成功生成了模擬結果,這令人印象深刻。這項測試也成功通過。

空間推理與 SVG 生成:蝴蝶形狀的 SVG 程式碼

這項測試是許多人期待的,我們要求 Gemini 2.5 Flash 生成一個對稱蝴蝶形狀的 SVG 程式碼,並開啟了程式碼執行功能。這項測試旨在評估模型對空間推理、對稱邏輯以及 SVG 語法和幾何知識的理解。

令人驚訝的是,Gemini 2.5 Flash 成功生成了正確的蝴蝶形狀。儘管顏色方案可能不盡如人意,但它成功實現了蝴蝶翅膀的功能,這與最初的 Gemini 2.5 Pro 的生成能力相似。總體而言,看到它能夠完成這項通常對大多數模型來說非常困難的任務,我們感到非常驚訝。

數學問題解決:火車相遇時間計算

我們提出了一個經典的數學問題:一輛火車從城市 A 出發,另一輛火車從城市 B 出發,計算它們相遇的時間。這個問題旨在評估模型對速度-距離-時間關係的理解以及解決代數方程的能力。

Gemini 2.5 Flash 成功地按照步驟進行計算,並得出了正確的答案:下午 1:12。這項測試也成功通過。

創意程式碼生成:可換台的電視應用

我們要求 Gemini 2.5 Flash 編寫一個可通過數字鍵 0 到 9 換台的電視應用程式,並要求它返回一個 p5.js 草圖。這是一個創意程式碼提示,旨在評估模型對互動式程式設計和 p5.js 畫布操作的理解。

Gemini 2.5 Flash 成功生成了電視應用程式的程式碼,其外觀相當不錯,並且能夠生成多種不同的創意內容。這項測試也成功通過。

閱讀理解與科學推理:氣候建模論文分析

我們要求 Gemini 2.5 Flash 閱讀一篇氣候建模論文的三個部分,並解釋為什麼混合模型更好。這項測試旨在評估模型在綜合多部分信息、進行推斷以及生成清晰答案方面的能力。

Gemini 2.5 Flash 快速生成了回應,並成功閱讀了整篇論文,重點關注了指定的三個段落。它成功地綜合了信息,進行了推斷,並給出了一個清晰的答案。儘管答案的合理性需要進一步驗證,但從其生成過程和結構來看,這是一個有效的答案。這項測試也成功通過。

演繹推理:偵探案例分析

最後,我們提出了一個演繹推理問題:一個偵探案例有五名嫌疑人,他們的陳述相互矛盾,只有一個人說真話,找出誰是罪犯。這項測試旨在評估模型處理條件語句以及根據約束條件進行邏輯推斷的能力。

Gemini 2.5 Flash 成功地進行了邏輯推斷,並得出了正確的答案:它還詳細解釋了所有可能的推理過程,這表明其推理能力非常強大。這項測試也成功通過。


總結

經過一系列不同類型的基準測試,Gemini 2.5 Flash 在所有測試中均獲得了通過,這令人印象深刻。然而,真正讓這款模型更具吸引力的是其極具競爭力的定價結構。這是一款預算友好的模型,卻能提供與 Gemini 2.5 Pro、GROK3 以及 Claude 3.7 SONNET 等其他最先進模型相媲美的性能。

Gemini 2.5 Flash 的推出無疑為 AI 應用開發者提供了一個強大的新選擇,尤其是在需要處理大量數據、對延遲要求較高且對成本敏感的場景下。


提升您的數位策略:與 Tenten.co 預約免費諮詢

如果您正在尋找專業的數位行銷和技術解決方案,以充分利用像 Gemini 2.5 Flash 這樣的先進 AI 技術,Tenten.co 數位代理機構可以為您提供幫助。我們擁有豐富的經驗,能夠將最新的 AI 技術融入您的業務策略,助您實現增長目標。

立即預約免費諮詢,與我們的專家團隊探討如何利用 AI 提升您的數位表現:https://tenten.co/contact

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...