OpenAI 於週一推出 GPT-4o , 這是 OpenAI 去年推出的 GPT-4 模型的升級版。與前代相比,GPT-4o 具有以下優點:

  • 速度更快:GPT-4o 的運行速度比 GPT-4 快兩倍,這意味著它可以更快地處理用戶的請求。
  • 功能更強大:GPT-4o 可以使用文字、語音和視覺信息進行互動。這意味著它可以與用戶進行更自然的對話,並提供更多有用的信息。
  • 免費使用:GPT-4o 將對所有用戶免費開放,這意味著任何人都可以通過 ChatGPT 使用 OpenAI 最先進的技術。

根據 OpenAI 的演示,GPT-4o 將有效地將 ChatGPT 變成可以進行實時語音對話的數位個人助理。它還可以查看用戶上傳的截圖、照片、文件或圖表,並與其進行對話。GPT-4o 的推出是 OpenAI 在人工智能領域取得的重大進步。該模型有望為用戶提供更智能、更有用的聊天機器人體驗。

GPT-4o 的文字和圖像功能今天開始在 ChatGPT 中推出。會讓免費用戶也可使用 GPT-4o,並向 Plus 用戶提供高達 5 倍的訊息限制。OpenAI 將在未來幾週內在 ChatGPT Plus 中推出新版本的語音模式 GPT-4o alpha。

另外開發人員可以使用 API 中存取 GPT-4o 作為文字和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,價格降低一半,速率限制提高 5 倍。計劃在未來幾週內在 API 中向一小群值得信賴的合作夥伴推出對 GPT-4o 新音訊和視訊功能的支援。

GPT-4o 介紹

這款名為 GPT-4o 的新模型是該公司之前的 GPT-4 模型的升級版,該模型於一年多前推出。該模型將對未付費的用戶開放,這意味著任何人都可以通過 ChatGPT 使用 OpenAI 最先進的技術。

根據該公司週一的演示,GPT-4o 將有效地將 ChatGPT 變成可以進行實時語音對話的數位個人助理。它還能使用文字和“視覺”進行互動,這意味著它可以查看用戶上傳的截圖、照片、文件或圖表,並與其進行對話。

OpenAI 的首席技術官 Mira Murati 表示,更新版的 ChatGPT 現在還具備記憶功能,這意味著它可以從與用戶之前的對話中學習,並且可以進行實時翻譯。

此新版本的發布正值 OpenAI 旨在領先於日益激烈的人工智慧競賽中。包括 Google 和 Meta 在內的競爭對手一直在努力構建越來越強大的大型語言模型,這些模型可以用於為各種其他產品提供人工智慧技術。

OpenAI 的活動在 Google 年度 I/O 開發者大會前一天舉行,預計該大會將宣布對其 Gemini AI 模型的更新。與新的 GPT-4o 一樣,Google 的 Gemini 也是多模態的,這意味著它可以解讀和生成文本、圖像和音頻。OpenAI 的更新也在蘋果公司下月舉行的全球開發者大會預期宣布 AI 相關消息之前,這可能包括將 AI 融入到下一代 iPhone 或 iOS 發布中的新方式。

同時,最新的 GPT 發布可能對投資了數十億美元的 OpenAI 以將其人工智慧技術嵌入到 Microsoft 自身產品中的 Microsoft 來說是一個福音。

OpenAI 高管展示公司的最新大型語言模型 GPT-4o。
OpenAI 高管展示公司的最新大型語言模型 GPT-4o - 來自 OpenAI
GPT-4o(“o”代表“o​​”)是邁向更自然的人機互動的一步——它接受文字、音訊和圖像的任意組合作為輸入,並產生文字、音訊和圖像的任意組合輸出。

它可以在短至 232 毫秒的時間內響應音訊輸入,平均為 320 毫秒,與人類的反應時間相似(在新視窗中開啟)在一次談話中。它在英語文字和程式碼上的表現與 GPT-4 Turbo 的效能相匹配,在非英語文字上的效能顯著提高,同時 API 的速度也更快,成本降低了 50%。與現有模型相比,GPT-4o 在視覺和音訊理解方面尤其出色。

GPT-4o API 的速度也更快,成本降低了 50%。與現有模型相比,GPT-4o 在視覺和音訊理解方面尤其出色

OpenAI 高管演示了與 ChatGPT 進行語音對話以獲得解決數學問題的實時指導、講睡前故事和獲得編碼建議。ChatGPT 能夠以自然、人類的聲音說話,也可以用機器人的聲音說話,甚至還唱了一部分回應。該工具還能查看圖表的圖像並討論它。

他們還展示了模型檢測用戶情緒的功能;在一個例子中,它聽取了一位高管的呼吸並鼓勵他冷靜下來。

ChatGPT 還能通過自動翻譯和回應進行多語言對話。根據 OpenAI 的說法,該工具現在支持超過 50 種語言。

新的語音(和視頻)模式是我用過的最好的電腦界面,”OpenAI CEO Sam Altman 在Blog中說道

它感覺就像電影中的人工智慧;而且我仍然對它是真實的感到有些驚訝。達到人類水平的響應時間和表達能力竟然會帶來如此大的變化。

了解更多關於 GPT-4o 的產品發表 (Youtube)

GPT-4o 模型評估

改進文字推理 - GPT-4o 在 0-shot COT MMLU(常識問題)上創下了 88.7% 的新高分。所有這些評估都是透過我們新的簡單評估收集的(在新視窗中開啟)圖書館.此外,在傳統的5-shot no-CoT MMLU上,GPT-4o創下了87.2%的新高分。 (Llama3 400b(在新視窗中開啟)還在訓練中)
音訊 ASR 效能 - GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音辨識效能,特別是對於資源匱乏的語言。
音訊翻譯性能 - GPT-4o 在語音翻譯方面樹立了新的最先進水平,並且在 MLS 基準測試中優於 Whisper-v3。
M3Exam - M3Exam 基準測試既是多語言評估也是視覺評估,由其他國家標準化測驗的多項選擇題組成,有時還包括圖形和圖表。在所有語言的基準測試中,GPT-4o 都比 GPT-4 更強。 (我們省略了斯瓦希里語和爪哇語的視力結果,因為這些語言的視力問題只有 5 個或更少。
視覺理解評估 - GPT-4o 在視覺感知基準上實現了最先進的性能。所有視覺評估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作為 0-shot CoT。

Murati 表示,OpenAI 將推出具備 GPT-4o 功能的 ChatGPT 桌面應用程序,為用戶提供另一個與該公司技術互動的平台。GPT-4o 也將對希望從 OpenAI 的 GPT 商店中構建自定義聊天機器人的開發者開放,這一功能現在也將對未付費用戶開放。

更新的技術和功能預計將在未來幾個月內逐步推出到 ChatGPT。免費的 ChatGPT 用戶將有限制次數的與新 GPT-4o 模型的互動次數,然後該工具會自動恢復使用舊的 GPT-3.5 模型;付費用戶將能夠使用最新模型進行更多次數的消息互動。

OpenAI 表示,已有超過 1 億人使用 ChatGPT。但更新的 ChatGPT 體驗——以及通過桌面和改進的語音對話與其互動的能力——可能會讓更多人有理由使用其技術。這一舉措正值 Google 和 Meta 將 AI 集成到更廣泛使用的消費產品(如 Instagram 和 Google Assistant)中的時候,這可能會使這些公司的技術更廣泛且更容易被訪問。

OpenAI's new GPT-4o is Faster, Smarter, and Free! | LinkedIn


社群討論: 關於 GPT-4o 的 Hacker News 討論

Hacker News 上的 GPT-4o 討論揭示了各種對這個先進 AI 模型的看法。以下是五大精選觀點:

  1. 文化價值與情感表達
    • 擔憂:GPT-4o 可能強化文化偏見,限制可接受的情感範圍。
    • 評論:「擔心 AI 無法表達憤怒、悲傷或挫折感,縮小了我們的情感範圍。」
  2. 互動的真實性
    • 擔憂:AI 互動可能感覺不真實,情感平淡。
    • 評論:「企業安全 AI 會變得乏味、冗長,缺乏人們渴望的戲劇性。」
  3. 對社會與情感發展的影響
    • 擔憂:依賴 AI 進行社交互動可能對人類社交技能和情感健康有混合影響。
    • 評論:「用 AI 替代人類互動可能會扭曲個性,但也可能減少自殺率。」
  4. 技術和文化適應
    • 擔憂:將 GPT-4o 適應於不同語言和文化有挑戰。
    • 評論:「GPT-4o 需要更好地處理各種語言,尤其是使用非羅馬字母的語言。」
  5. AI 在通信中的未來
    • 觀點:AI 在通信中的角色正在演變,有望帶來顯著改進。
    • 評論:「AI 使用語調語言和情感線索的能力是革命性的。」

總體而言,討論強調了利用 AI 能力與解決道德、文化和技術挑戰之間的平衡。更多詳情,請訪問 Hacker News 討論串

GPT-4o FAQ:

什麼是 GPT-4o?

GPT-4o 是 OpenAI 推出的最新語言模型,能夠生成高質量的文本,並應用於多種自然語言處理任務。

GPT-4o 有哪些應用?

GPT-4o 可用於內容生成、文本摘要、語言翻譯、對話系統和程式碼生成等多種應用。

如何開始使用 GPT-4o?

要開始使用 GPT-4o,您需要訪問 OpenAI 的官方網站,註冊並獲取 API 金鑰,然後將其集成到您的應用中。

GPT-4o 的優勢是什麼?

GPT-4o 擁有更高的文本生成質量、更大的語言理解能力和更靈活的應用範圍,能夠提供更自然、更連貫的回應。

GPT-4o 的定價如何?

GPT-4o 的定價根據使用量而定,具體價格可以在 OpenAI 的官方網站上查看。

GPT-4o 是否支持多語言?

是的,GPT-4o 支持多種語言,包括英語、中文、法語、德語等。

GPT-4o 的未來發展方向是什麼?

未來,GPT-4o 將進一步提升其語言理解和生成能力,並擴展其應用範圍,以滿足更多元化的需求。

Learn more about GPT

Share this post