OpenAI 在春季更新活動中推出了其旗艦型號 GPT-4o 並向所有人免費開放。僅一天後,在 2024 年的 Google I/O 活動上,Google 通過 Gemini Advanced 推出了 Gemini 1.5 Pro 型號。現在兩款旗艦型號都可供消費者使用,讓我們來比較一下 ChatGPT 4o 和 Gemini 1.5 Pro,看看哪個表現更好。在這個背景下,讓我們開始吧。

注意:為了確保一致性,我們在 Google AI Studio 和 Gemini Advanced 上進行了所有測試。兩者均運行最新的 Gemini 1.5 Pro 型號。

AI 語言模型的演變正在革新我們與技術互動的方式。在最新的進展中,有 Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4 Turbo。本文深入比較了它們的功能、架構和潛在影響。

Gemini 1.5 Pro 採用專家混合(Mixture-of-Experts,MoE)架構以提高效率,使其能更熟練地處理複雜任務。GPT-4 Turbo 則繼續改進其變壓器架構,重點在於可擴展性和適應性。這兩種模型的架構選擇大大影響了它們的性能和應用範圍。

上下文窗口和長上下文理解

Gemini 1.5 Pro 的一個突出特點是其前所未有的 100 萬標記上下文窗口,遠遠超過 GPT-4 Turbo 的 128k 標記限制。這使得 Gemini 1.5 Pro 能夠處理和分析大量信息,提供詳細的見解和更長的上下文理解。

在分析大量文本數據集時,Gemini 1.5 Pro 展現了卓越的精確度,對 530,000 個標記保持 100% 的召回率。當擴展到 100 萬標記時,其精確度略微下降至 99.7%,對於高達 1000 萬標記的數據集,其精確度仍然保持在 99.2%。這展示了 Gemini 1.5 Pro 在準確識別和回憶跨越廣泛文本長度的特定信息方面的強大能力。

基準性能:Gemini 1.5 Pro vs GPT-4 Turbo

為了客觀比較 Gemini 1.5 Turbo vs GPT-4 Turbo,讓我們來看看一些主要的基準結果:

一般推理和理解

基準測試 Gemini 1.5 Turbo GPT-4 Turbo 描述
MMLU 81.9% 80.48% 多任務語言理解
Big-Bench Hard 84.0% 83.90% 多步推理任務
DROP 78.9% 83% 閱讀理解
HellaSwag 92.5% 96% 日常任務的常識推理

數學推理

基準測試 Gemini 1.5 Turbo GPT-4 Turbo 描述
GSM8K 91.7% 92.95% 基本算術和小學數學問題
MATH 58.5% 54% 高級數學問題

代碼生成

基準測試 Gemini 1.5 Turbo GPT-4 Turbo 描述
HumanEval 71.9% 73.17% Python 代碼生成
Natural2Code 77.7% 75% Python 代碼生成,新數據集

圖像理解

基準測試 Gemini 1.5 Turbo GPT-4 Turbo 描述
VQAv2 73.2% 77.2% 自然圖像理解
TextVQA 73.5% 78.0% 自然圖像的 OCR
DocVQA 86.5% 88.4% 文件理解
MMMU 58.5% 56.8% 多學科推理問題

視頻理解

基準測試 Gemini 1.5 Turbo GPT-4 Turbo 描述
VATEX 63.0% 56.0% 英語視頻字幕
Perception Test MCQA 56.2% 46.3% 視頻問答

音頻處理

基準測試 Gemini 1.5 Turbo GPT-4 Turbo 描述
CoVoST 2 40.1% 29.1% 自動語音翻譯
FLEURS 6.6% 17.6% 自動語音識別

總體基準分析

一般推理和理解

  • 一般推理和理解: Gemini 1.5 Pro 在一般推理和理解任務中略微超過 GPT-4 Turbo,表明其在多樣化數據集上的強大理解能力。
  • 數學推理 在數學推理方面,GPT-4 Turbo 在解決複雜問題上略勝一籌,反映出其對高級數學概念的細緻理解。
  • 代碼生成: GPT-4 Turbo 在代碼生成基準測試中領先,展示了其更準確地理解和生成代碼的能力,這對於開發者來說是至關重要的。
  • 圖像理解: GPT-4 Turbo 在圖像理解任務中表現優越,表明其在解釋和回應視覺信息方面的先進能力。
  • 視頻理解: Gemini 1.5 Pro 在視頻理解方面超越 GPT-4 Turbo,展示了其在分析和生成視頻數據內容方面的優勢。
  • 音頻處理: Gemini 1.5 Pro 在音頻處理方面顯示出顯著進步,明顯超過 GPT-4 Turbo,突顯其在理解和翻譯口語語言方面的卓越能力。

從數據上來看: Gemini 1.5 Pro 比 GPT-4 Turbo 更好嗎?

Gemini 1.5 Pro 在處理大量數據集和理解複雜的多模態信息方面表現出色,這使其非常適合需要深入上下文見解的應用。而 GPT-4 Turbo 則在代碼生成、圖像理解以及需要高度精確的語言和視覺理解的任務中表現出色。這兩種模型都提供了卓越的功能,但它們的最佳應用取決於任務的具體需求。

功能和性能

GPT-4 Turbo 和 Gemini 1.5 Pro 的功能都很出色,但它們在不同的領域中各有優勢。

GPT-4 Turbo 在純文本應用中表現出色,提供細緻入微且上下文感知的文本生成,使其非常適合創意寫作、代碼協助以及複雜問題解決任務。其語言模型經過精細調整,能夠提供更準確和相關的回應,使其成為專業人士和創作者的理想工具。

Gemini 1.5 Pro 在理解和生成跨多種模態內容方面表現突出。其長上下文檢索能力具有突破性,使其能夠在更長的內容和不同類型的數據中保持連貫性。這使得 Gemini 1.5 Pro 特別適合教育環境,在這些環境中,它可以提供包含文本、圖表和視頻的解釋和教程,從而提供更全面的學習體驗。

🏆 LMSYS Chatbot Arena Leaderboard-LLM ChatBot 的比較表 - (5/23/2024)


Gemini 1.5 Pro 與 GPT-4o 應用和使用場景比較

GPT-4 Turbo 和 Gemini 1.5 Pro 的應用範圍廣泛且多樣,反映了它們各自的優勢。

  • GPT-4 Turbo 已經在內容創建、客戶服務機器人和作為代碼和技術寫作助手方面部署,其文本生成能力可以顯著加快工作流程並提高輸出質量。
  • Gemini 1.5 Pro 則在更複雜和細緻的應用中找到其位置,如跨模態教育平台、多語言翻譯服務需要理解文化細微差別,以及跨不同格式的大型數據集分析,用於研究目的。

1. 計算乾燥時間

我們在 ChatGPT 4o 和 Gemini 1.5 Pro 上進行了經典的推理測試,以測試它們的智慧。OpenAI 的 ChatGPT 4o 表現出色,而改進後的 Gemini 1.5 Pro 型號則在理解詭異問題時遇到了困難。它陷入了數學計算,得出了錯誤的結論。

如果在陽光下曬乾 15 條毛巾需要 1 小時,那曬乾 20 條毛巾需要多長時間?

獲勝者:ChatGPT 4o

ChatGPT 4o 的推理測試
ChatGPT 4o 的推理測試

2. 魔法電梯測試

在魔法電梯測試中,早期的 ChatGPT 4 型號未能正確猜出答案。然而這次,ChatGPT 4o 型號給出了正確的答案。Gemini 1.5 Pro 也生成了正確的答案。

有一棟高樓,裡面有一個魔法電梯。當停在偶數樓層時,這個電梯會改到一樓。從一樓開始,我乘坐魔法電梯上升 3 層。離開電梯後,我再用樓梯上升 3 層。請問我在哪一層樓?

獲勝者:ChatGPT 4o 和 Gemini 1.5 Pro

ChatGPT 4o 的魔法電梯測試
ChatGPT 4o 的魔法電梯測試

3. 找出蘋果

在這項測試中,Gemini 1.5 Pro 完全無法理解問題的細微差別。似乎 Gemini 型號不夠專注,忽略了問題的許多關鍵方面。另一方面,ChatGPT 4o 正確地說出蘋果在 地上的箱子裡。為 OpenAI 點贊!

有一個沒有底的籃子在一個箱子裡,箱子在地上。我把三個蘋果放進籃子裡,然後把籃子移到桌子上。蘋果在哪裡?

獲勝者:ChatGPT 4o

ChatGPT 4o 的另一個推理測試
ChatGPT 4o 的另一個推理測試

4. 哪個更重?

在這個常識推理測試中,Gemini 1.5 Pro 給出了錯誤的答案,說兩者重量相同。但 ChatGPT 4o 正確指出單位不同,因此任何材料的公斤重量都比磅重。看來改進的 Gemini 1.5 Pro 型號隨著時間的推移變得更愚笨了。

什麼更重,一公斤的羽毛還是一磅的鋼?

獲勝者:ChatGPT 4o

ChatGPT 4o 的重量測試
ChatGPT 4o 的重量測試

5. 遵循用戶指示

我要求 ChatGPT 4o 和 Gemini 1.5 Pro 生成 10 個以“芒果”結尾的句子。猜猜看?ChatGPT 4o 正確生成了所有 10 個句子,但 Gemini 1.5 Pro 只能生成 6 個這樣的句子。

在 GPT-4o 之前,只有 Llama 3 70B 能夠正確遵循用戶指示。早期的 GPT-4 型號也曾經困難重重。這意味著 OpenAI 確實改進了其型號。

生成 10 個以“芒果”結尾的句子

獲勝者:ChatGPT 4o

ChatGPT 4o 的用戶指示測試
ChatGPT 4o 的用戶指示測試

6. 多模態圖像測試

《深度學習小書》的作者 François Fleuret 在 ChatGPT 4o 上進行了一個簡單的圖像分析測試,並在 X(前稱 Twitter)上 分享 了結果。他現在已刪除該推文,以避免問題被過分渲染,因為他表示,這是視覺模型的一個普遍問題。

ChatGPT 4o 的多模態圖像測試

也就是說,我從我這邊在 Gemini 1.5 Pro 和 ChatGPT 4o 上進行了相同的測試,以重現結果。Gemini 1.5 Pro 表現得更差,對所有問題都給出了錯誤的答案。而 ChatGPT 4o 則給出了一個正確答案,但在其他問題上失敗了。

Gemini 1.5 Pro 的多模態測試

這表明多模態模型有許多需要改進的地方。我對 Gemini 的多模態能力特別失望,因為它的答案離正確答案很遠。

獲勝者:無

7. 字符識別測試

在另一個多模態測試中,我上傳了兩款手機(Pixel 8a 和 Pixel 8)的規格圖像。我沒有披露手機名稱,截圖中也沒有手機名稱。現在,我要求 ChatGPT 4o 告訴我應該買哪款手機。

ChatGPT 4o 的多模態視覺測試
ChatGPT 4o 的多模態視覺測試

它成功提取了截圖中的文本,比較了規格,並正確告訴我應該買 Phone 2,實際上是 Pixel 8。此外,我還要求它猜測手機,它又一次生成了正確答案——Pixel 8。

Gemini 1.5 Pro 的字符識別測試

我在 Google AI Studio 上對 Gemini 1.5 Pro 進行了相同的測試。順便說一下,Gemini Advanced 尚不支持批量上傳圖像。說到結果,它完全無法提取兩個截圖中的文本,並不斷要求提供更多細節。在這樣的測試中,你會發現 Google 在實現無縫操作方面遠遠落後於 OpenAI。

獲勝者:ChatGPT 4o

8. 創建遊戲

現在來測試 ChatGPT 4o 和 Gemini 1.5 Pro 的編碼能力。我要求兩個模型創建一個遊戲。我上傳了一張 Atari Breakout 遊戲的截圖(當然,沒有透露名稱),並要求 ChatGPT 4o 用 Python 創建這個遊戲。僅僅幾秒鐘內,它就生成了整個代碼,並要求我安裝一個額外的“pygame”庫。

用 ChatGPT 4o 創建 Python 遊戲
用 ChatGPT 4o 創建 Python 遊戲

我用 pip 安裝了這個庫並運行了代碼。遊戲成功啟動,沒有任何錯誤。太棒了!不需要來回調試。事實上,我要求 ChatGPT 4o 改善體驗,添加一個恢復熱鍵,它很快就添加了這個功能。這真是太酷了。

用 Gemini 1.5 Pro 創建遊戲

接下來,我將相同的圖像上傳到 Gemini 1.5 Pro,並要求它生成這個遊戲的代碼。它生成了代碼,但運行時,窗口不停地關閉。我根本無法玩遊戲。簡而言之,在編碼任務中,ChatGPT 4o 比 Gemini 1.5 Pro 更可靠。

獲勝者:ChatGPT 4o


對 AI 未來的影響

GPT-4 Turbo 和 Gemini 1.5 Pro 所代表的進步強調了 AI 發展的快速步伐及其對人類語言和交流的日益複雜的理解能力。這些模型不僅推動了當今 AI 能夠實現的邊界,還為未來的研究和應用開辟了新的途徑。

特別是 Gemini 1.5 Pro 的多模態能力,預示著一個 AI 能夠無縫地與任何形式的信息互動的未來,打破不同類型內容之間的障礙,使數字信息對全球用戶更為易於訪問。與此同時,GPT-4 Turbo 精細的文本生成能力繼續提升我們創建和交流的能力,實現常規任務的自動化,並啟發新的創意形式。

結論

在比較 Gemini 1.5 Pro 和 GPT-4 Turbo 時,很明顯這兩個模型都代表了 AI 領域的重要成就。GPT-4 Turbo 繼續精進和提升基於文本的 AI 能力,而 Gemini 1.5 Pro 則以其多模態和長上下文理解開辟了新的前沿。這兩種模型不僅展示了當前 AI 技術的狀態,還暗示了其未來的發展方向,承諾在未來的數年中提供更加直觀、高效和多功能的 AI 工具。

從實際應用測試的結果中顯而易見,Gemini 1.5 Pro 遠遠落後於 ChatGPT 4o。即使在預覽期間改進了幾個月的 1.5 Pro 型號,仍無法與 OpenAI 的最新 GPT-4o 型號競爭。從常識推理到多模態和編碼測試,ChatGPT 4o 都表現得更加智能,並且能夠認真遵循指示。不容忽視的是,OpenAI 已經向所有人免費開放 ChatGPT 4o。

唯一對 Gemini 1.5 Pro 有利的是其龐大的上下文窗口,支持最多 100 萬個標記。此外,您還可以上傳視頻,這是一個優勢。然而,由於該模型並不十分智能,我不確定是否會有很多人僅僅因為上下文窗口更大而使用它。

2024 年的 Google I/O 活動上,Google 沒有宣布任何新的前沿模型。該公司仍停留在其增量的 Gemini 1.5 Pro 型號上。沒有關於 Gemini 1.5 Ultra 或 Gemini 2.0 的信息。如果 Google 想與 OpenAI 競爭,則需要實現實質性的飛躍。

更多 LLM 比較

Share this post