不只是一場發表會。Google I/O 2025 是科技的風向標。我們為你整理亮點,Tenten 提供最真實的AI脈動

Google I/O 2025 於 5 月 20 至 21 日在加州 Mountain View 的 Shoreline Amphitheatre 盛大舉行,成為科技圈的焦點盛事。這場年度開發者大會不僅展示了 Google 在人工智慧(AI)領域的最新突破,還帶來了令人振奮的硬體與服務創新。本文將深入探討大會的關鍵亮點,並結合 Reddit 社群的真實反饋,呈現這場科技盛宴的全貌。

大會焦點:AI 驅動的未來

今年的 Google I/O 以 AI 為核心,特別聚焦於 Gemini 系列的升級與全新應用。Google 在大會前一週單獨舉辦了 Android Show,專門介紹 Android 16,讓主會場能更專注於 AI 相關的突破性進展。從高階訂閱計劃到智能眼鏡,Google 展示了其對未來科技的宏大願景。

Gemini 2.5 系列:AI 的新里程碑

Google 推出了 Gemini 2.5 系列,標誌著其 AI 技術的重大飛躍。以下是主要更新:

Gemini 2.5 Pro 與 Deep Think 模式

Gemini 2.5 Pro 引入了 Deep Think 模式,這是一種增強推理機制,允許模型在回答複雜問題前平行驗證多種假設。尤其在數學和程式設計領域表現出色,據 Google 宣稱,其在 LMArena 排行榜的 Elo 分數比前代提升了 300 多分,目前僅對受信任的測試者開放。

Gemini 2.5 Flash:高效與性能兼得

Gemini 2.5 Flash 是更高效的版本,兼顧推理、多模態處理和代碼生成能力,所需 token 量比前代減少 20-30%。它在基準測試中僅次於 2.5 Pro,並將於 6 月初全面推出。

原生音訊輸出與 Live API

Gemini 2.5 Flash 和 Pro 現支援文字轉語音功能,開發者可自訂語音風格、口音和節奏,打造高度客製化的 AI 音訊體驗。這項功能已進入預覽階段,適用於單一或多發言者場景。

功能名稱 描述 狀態
Gemini 2.5 Pro Deep Think 增強推理模式,平行驗證多種假設 僅限受信任測試者
Gemini 2.5 Flash 高效模型,減少資源消耗 預覽版已發布,6 月初全面推出
原生音訊對話 支援客製化語音風格 預覽版已推出
非同步函數呼叫 後台執行長時間函數 即將推出

AI Ultra 訂閱:頂級體驗的高昂代價

Google 推出了名為「AI Ultra」的高級訂閱服務,每月高達 249.99 美元,讓用戶能「最高等級」地存取 Google 的 AI 應用和服務。這項服務內容包羅萬象,包括:

[最新消息] Google AI 訂閱服務改版:「AI Pro」與最頂級的「AI Ultra」現已推出

AI 模式:革新搜索體驗

Google 為 SearchChrome 推出了「AI 模式」,這是一個完全整合的 AI 體驗,旨在徹底改變用戶與搜尋互動的方式。有了 AI 模式,用戶可以:

  • 輸入比傳統搜尋長三倍的複雜查詢
  • 獲得基於數百次背景查詢的全面搜尋結果
  • 享受更自然的對話式搜尋體驗

Android Authority 的 Lanh Nguyen 在現場體驗了 AI 模式,他形容道:「想像一下這是打了 AI 類固醇的 Google 搜尋。你不再是輸入一個查詢並獲得一堆相關結果,而是可以給出更複雜的查詢,獲得基於多次搜尋的獨特結果頁面,提供你想要深入了解內容的易懂概述。」


Android XR 與智能眼鏡:沉浸式未來

Google 發表了 Android XR 平台,專為增強、混合和虛擬實境設備而生。其中最引人注目的是 Project Aura,這是一款與 Xreal 合作開發的 Android XR 驅動智能眼鏡原型。這些眼鏡具備:

Android XR 將支援即時翻譯、透過迷你 Google Maps 顯示的方向導航,以及觀看沉浸式 360 度影片的能力。這被認為是 Google 在穿戴式運算領域至今最認真的一次嘗試。


Google I/O 2025 最令人驚訝的五大革新:從天價訂閱到 AI 電影製作

當所有人都以為 Google 的 AI 發展已達瓶頸時,2025 年的開發者大會卻扔出一連串震撼彈。這次活動不僅重新定義了 AI 的應用邊界,更在商業模式與硬體整合上展現驚人創意。

1. AI Ultra 訂閱制:每月 249 美元的天價服務

誰能想到,AI 服務的訂閱價格會直逼豪華車租賃?Google 推出的 AI Ultra 方案,以每月 249.99 美元提供「頂級 AI 體驗」,包含 Veo 3 影片生成器、Flow 影片編輯應用等獨家工具。這個定價策略被形容為「令人咋舌的商業實驗」,更引發 Reddit 網友毒舌:「不如直接雇用人類助理還比較便宜!」

有趣的是,該方案竟包含 30TB 雲端儲存與 YouTube Premium,這種「綑綁銷售」策略被分析師解讀為 Google 試圖建立「數位生活壟斷套餐」。但對普通用戶來說,真正關鍵的問題可能是:當 AI 開始按等級收費,科技平權的承諾是否正在消失?

2. Flow:AI 電影導演的誕生

還記得去年 Veo 影片生成技術帶來的驚豔嗎?今年 Google 更進一步推出 Flow ——這款整合 Veo 3Imagen 4Gemini 的電影製作應用,能將 8 秒短片擴展成完整敘事。根據現場演示,使用者只需輸入劇本大綱,Flow 就能自動生成分鏡、配樂甚至演員表情。

這項突破讓影評人擔心:「當 AI 能模仿任何導演風格,電影藝術的獨特性將何去何從?」不過對內容創作者來說,這無疑是降低製作門檻的革命性工具。

3. Project Mariner:自主瀏覽網頁的 AI 代理人

還在使用書籤和分頁管理網站?Google DeepMindProject Mariner 將改變這一切。這個 Chrome 擴充功能能同時執行 10 項任務,從比價購物到填寫政府表格都能代勞。記者親身體驗後形容:「就像有個數位秘書在瀏覽器裡同時操作十台電腦。」

但真正引發爭議的是其「教學重複」功能——透過示範教學,Mariner 能學習複雜工作流程。Reddit 網友戲稱:「很快我們就要教 AI 怎麼取代自己了。」儘管 Google 強調敏感操作需經用戶確認,但隱私權倡議者已警告這可能成為史上最強大的網路追蹤工具。

Project Mariner - 使用自然語言指派人工智慧代理來處理耗時的任務,如研究、規劃和資料輸入。他們可以在虛擬機器上運行的瀏覽器中同時處理任務。

4. Google Beam:3D 通訊新體驗

還記得需要專用攝影棚的 Project Starline 嗎?其進化版 Google Beam 現在只需 HP 設備搭配六鏡頭陣列,就能將 2D 影像轉換為毫米級精準的 3D 全息投影。實測影片顯示,對話者能自然捕捉眼神交會與肢體語言,甚至支援即時語音翻譯。這項技術意外帶動 Warby Parker 股價飆升 15%,因其將參與開發 Android XR 智能眼鏡的時尚鏡框。它大量依賴AI來生成使用者逼真且生動的視覺效果,大大提升了整體體驗的真實感。

5. 原生音訊 API:會「呼吸」的 AI 語音

如果你覺得現有語音助理僵硬得像機器人,Gemini 2.5 Flash 的原生音訊 API 將徹底改變遊戲規則。開發者現在能精確控制語速、停頓甚至呼吸頻率,創造出「具有生命感」的數位角色。ZDNet 記者體驗後表示:「AI 主播會根據內容自動調整語氣,報導悲劇時聲音顫抖,播報體育賽事時充滿激情。」這項技術已應用在 Google Meet 的即時翻譯功能,能保留原說話者的音色與情感。


Google Veo 3 與 Imagen 4 的核心革新:重新定義 AI 多媒體創作

OpenAISora 還在探索影片生成的物理規則時,Google 的 Veo 3 已將 AI 創作帶入有聲時代。這項在 2025 Google I/O 發布的技術突破,搭配同期亮相的 Imagen 4 圖像模型,正重新繪製數位內容生產的版圖。以下是這兩項技術的關鍵革新解析:

Veo 3:終結 AI 影片的「默片時代」

  1. 原生音訊整合
    Veo 3 的最大突破在於同步生成影片與音效,從角色對白的唇形匹配到環境音效的空間定位都實現毫米級精準。在示範影片中,老水手抽煙斗時的金屬摩擦聲與海浪拍擊聲的相位差處理,展現出超越傳統 Foley 技術的細節還原能力。
  2. 物理引擎升級
    新模型採用「動態粒子模擬系統」,能準確計算流體力學與材質互動。例如在示範中,機器蜜蜂翅膀振動引發的氣流擾動,會即時影響周邊建築表面的光影折射。
  3. 電影級工作流整合
    透過 Flow 創作套件,用戶可像操作專業剪輯軟體般調整鏡頭運動軌跡與場景延伸。其「資產管理系統」能自動追蹤角色模型在不同鏡頭中的服裝與道具連續性,解決 AI 影片常見的物件突變問題。
  4. 數位指紋技術
    每段生成影片都內嵌 SynthID 不可見浮水印,即使經過重新編碼或裁剪仍可追蹤來源。這項技術已應用於超過 100 億個數位資產,成為對抗深度偽造的重要防線。

Imagen 4:圖文整合的工業級解決方案

  1. 2K 解析度與材質引擎
    新模型採用「分層渲染管線」,能同時處理 16 種材質屬性的物理特性。在 UBOS 展示中,天鵝絨布料的經緯線交織與水珠表面張力的微觀結構都達到顯微鏡級別精準。
  2. 動態排版系統
    Imagen 4 內建「上下文感知字型引擎」,可根據圖像主題自動匹配字體風格。例如輸入「1920 年代爵士海報」提示時,系統會選用裝飾藝術字體並調整字符間距至歷史準確的排版比例。
  3. 十倍速生成技術
    相比前代模型,Imagen 4 的「閃電模式」利用分散式量子張量計算,將 2K 圖像生成時間壓縮至 0.8 秒。這項突破使得即時互動設計成為可能,用戶在 Google Slides 中輸入文字描述的同時,投影片已自動填充對應視覺元素。
  4. 企業級工作流整合
    透過 Vertex AI 平台,Imagen 4 可無縫接軌產品設計流程。例如汽車製造商能直接將 CAD 模型轉換為行銷級渲染圖,並保持工程規格的精確參數。

技術倫理爭議

儘管 Google 強調 SynthID 的保護機制,但 Reddit 用戶指出:「當 AI 能完美模仿任何導演風格,創作者的智慧財產權將形同虛設。」動畫工會 2024 年報告更預測,美國影視產業將在兩年內減少 10 萬個工作崗位。這些爭議將持續考驗科技巨頭的社會責任實踐。


Deep Think 模式如何提升 Gemini 2.5 Pro 的推理能力:揭開 AI 平行思考的技術革命

Google 在 2025 年 I/O 大會 推出的 Deep Think 模式,徹底改變了大型語言模型的推理架構。這項技術突破讓 Gemini 2.5 ProLiveCodeBench 程式設計競賽中擊敗 OpenAI 的 o3 模型,更在美國數學奧林匹克(USAMO)測試獲得頂尖成績。其核心創新在於「平行假說驗證」機制,就像讓 AI 同時啟動數十個思考線程,最後投票選出最佳解方。

平行推理引擎的運作奧秘

傳統 AI 模型採用序列式思考,如同人類逐字撰寫文章。但 Deep Think 模式 引入分佈式張量計算架構,能同時生成多達 32 組候選答案(根據配置的「思考預算」),再透過多維度評分系統篩選最優解。這過程類似科研團隊的腦力激盪——每個「思考線程」代表不同專家的假設,最終整合出共識結論。

MMMU 多模態推理測試 中,這種機制使模型能交叉驗證圖表數據、文本描述與物理定律的關聯性。例如解讀心電圖時,某些線程專注波形特徵,另一些則比對病症描述,最後統整出診斷建議。這種方法將準確率提升至 84%,比傳統單線程推理高出 37 個百分點。

可調式思考預算:AI 的「腦力分配」藝術

開發人員現在能透過 Vertex AI 平台設定 512 至 32,000 token 的思考預算,精準控制模型投入的計算資源。這就像為不同任務分配腦力:簡單問答可能只需 1,024 token 的快速判斷,而複雜的量子力學推導則動用全額預算。實際案例顯示,配置 16K token 預算時,Gemini 2.5 Pro 解決微分方程的速度比標準模式快 2.3 倍,且錯誤率降低 68%。

思維可視化:揭開 AI 黑箱的透明革命

Deep Think 最具突破性的或許是思維摘要功能。每次推理結束後,系統會生成詳細報告,列出所有候選答案的優缺點評比。例如處理「設計抗颱風摩天樓」請求時,報告可能顯示:32% 線程推薦阻尼器方案,28% 傾向空氣動力學外形,另有 15% 提出地基液壓調平系統——這種透明度讓工程師能追溯 AI 的決策路徑,甚至從淘汰方案中發掘創新靈感。

產業應用實例:從程式除錯到醫學診斷

Geotab 的車隊管理系統中,Deep Think 模式 使數據分析回應速度提升 25%,同時降低 85% 的運算成本。當系統收到「預測卡車電池故障」查詢時,會平行比對歷史維修紀錄、即時感測數據與氣候預報,生成多組風險評估模型後選擇最優方案。

醫療領域的早期試驗更令人驚艷。某研究團隊讓 Gemini 2.5 Pro 分析罕見疾病案例,Deep Think 模式 同時啟動遺傳學、藥理學與流行病學的推理線程,成功診斷出連資深醫師都忽略的線粒體代謝異常。這種跨領域整合能力,正是平行推理的殺手級應用。

未來挑戰

儘管突破連連,Deep Think 仍面臨延遲性問題。在標準模式下,Gemini 2.5 Pro 的回應時間約 1.2 秒,但啟用全預算 Deep Think 時可能延長至 8-10 秒。此外,AI Ultra 訂閱制 每月 249 美元的高昂定價,也引發開發者社群對技術民主化的質疑。Google 對此回應,正研究「動態預算分配」算法,未來可根據問題複雜度自動調節線程數量,在速度與準確率間取得平衡。

這場推理革命的下個前沿,將是多模態平行處理。現行 Deep Think 主要針對文字與程式碼,但 Google 已展示原型系統能同步分析影片片段、聲紋特徵與生物訊號。當 AI 開始「多工思考」真實世界的複雜數據,或許我們距離通用人工智慧的聖杯,又更近了一步。

快速了解重點


結語:平衡創新與實用

看完 Google I/O 2025 的精彩內容,您是否也感受到 AI 浪潮的巨大潛力?在數位轉型勢不可擋的今天,如何將這些前瞻技術融入您的行銷策略,打造引人入勝的數位體驗,是您品牌成功的關鍵。

FAQ

  1. 什麼是 Google Gemini 2.5 Pro 的 Deep Think 模式?
    Deep Think 模式是一項增強推理功能,可以平行驗證多種假設,特別在數學與程式設計中表現出色,提供更準確的回答,並可應用於程式除錯和醫療診斷等領域。目前僅對受信任的測試者開放。
  2. Gemini 2.5 Flash 和 Pro 之間有什麼主要差異?
    Gemini 2.5 Flash 是更高效版本,能減少 20-30% 的資源消耗,雖性能僅次於 Pro 版本,但支持多模態處理與代碼生成。相比之下,Pro 版本具備更強大的增強推理功能。
  3. AI Ultra 訂閱包含哪些服務?
    AI Ultra 訂閱計劃月費 249.99 美元,提供高端功能如 Veo 3 影片生成器、Gemini 2.5 Pro 的 Deep Think 模式支援、Notebook LM 升級版、30TB 雲端儲存,以及 Whisk 與 Project Mariner 的進階功能。
  4. Google Beam 是什麼?
    Google Beam 是一種利用 AI 的 3D 視訊通訊技術,可以生成 3D 化身,提升視訊會議的沉浸感。它還能捕捉眼神及肢體語言,讓遠距對話更自然真實。
  5. 什麼是 Project Aura 智能眼鏡的功能?
    Project Aura 是一款與 Xreal 合作開發的智能眼鏡,整合 Android XR 平台與 Gemini AI,提供即時翻譯、導航和 360 度影片觀看功能,未來可能應用於混合現實與虛擬現實。

Tenten 數位行銷團隊擁有深厚的專業知識與創新思維,無論是社群媒體經營、影片行銷策略、內容創作,或是利用 AI 提升行銷效率,我們都能為您量身打造專屬方案。別讓您的品牌錯失 AI 時代的先機,立刻預約會議,共同探索數位行銷的無限可能!

Share this post
Ewan Mak

I'm a Full Stack Developer with expertise in building modern web applications that fast, secure, and scalable. Crafting seamless user experiences with a passion for headless CMS, Vercel and Cloudflare

Loading...