GPT-4o Mini vs GPT-3.5:誰將成為下一代小型 (SLM) 語言模型的霸主?

AI 綜述OpenAI 推出了 GPT-4o Mini——GPT-4o 生成型大語言模型的更小、更便宜的版本(LLM ) 。

微軟支持的超級實驗室週四表示, GPT-4o Mini 就像普通的GPT-4o一樣,它是多模式的- 它不僅可以處理書面文字- 並且具有128,000 個令牌的上下文窗口,並接受了截至10 月的材料的培訓2023 年。

OpenAI 的高端模型 GPT-4o 每百萬個輸入和輸出代幣的成本分別為 5 美元和 15 美元,而 Mini 版本的成本為 15 美分和 60 美分。如果使用延遲批次處理,您可以將這些數字減半。

我們被告知精簡版功能尚不完善,僅透過其 API 支援文字和視覺。其他輸入和輸出格式(例如音訊)將在不確定的未來出現。

在創建 GPT-4o Mini 時,OpenAI 強調了它的安全性,聲稱從培訓材料中過濾掉了攻擊性數據,並為其提供了與 GPT-4o 相同的護欄。據 OpenAI 稱,Mini 還導入了一個全新的機制 "指令層級結構:培訓LLMs優先處理特權指令",理想情況下,可以阻止說服模型做不應該做的事情的嘗試,例如讓它忽略先前的指令並推翻其製造商的意圖。

「API中的GPT-4o mini是第一個應用我們的指令層次方法的模型,這有助於提高模型的抗越獄、提示注入和系統提示提取的能力。」超級實驗室表示。 「這使得模型的響應更加可靠,並有助於使其在大規模應用程式中使用更安全。

“我們將繼續監控 GPT-4o mini 的使用方式,並在發現新風險時提高模型的安全性。”

此外,OpenAI 聲稱 GPT-4o Mini 領先於同類產品LLMs在基準測試中。與 Google 的輕量級 Gemini Flash 和 Anthropic 的 Claude Haiku 相比,Mini 在MMLU等測試中的準確度通常高出 5% 到 15%。在兩個異常值中,它的準確度幾乎是競爭對手的兩倍,而在另一個異常值中,它比 Gemini Flash 稍差,但據稱仍領先 Claude Haiku。

OpenAI 的 GPTo Mini 基準測試得分與其競爭對手相比…有些不錯,有些非常接近

OpenAI 和 Anthropic 之間的競爭具有個人優勢,因為後者是由前者的高階主管和工程師共同創立和建立的。

GPT-4o Mini 在上圖中看起來確實不錯,儘管它沒有全面領先——這表明 OpenAI 最近在該領域失去了絕對領導地位。LLM競技場。正如資深開源開發人員Simon Willison上個月在 AI 工程師世界博覽會上的主題演講中詳細介紹的那樣,OpenAI 的許多競爭對手在 2024 年發布了自己的 GPT-4 級模型。

「最好的模型集中在一起:GPT-4o、全新的 Claude 3.5 Sonnet 和 Google Gemini 1.5 Pro,」Willison宣稱。 「我將所有這些歸類為 GPT-4 類。這些是最好的可用型號,我們現在有 GPT-4 以外的選擇。價格也不錯——比過去便宜得多。”

GPT-4o Mini 的 MMLU 準確度為 82%,每百萬代幣的成本為 15 美分,在很大程度上處於領先地位。然而,Willison 指出 LMSYS Chatbot Arena基準測試提供了更現實的評估LLM質量,因為實際的人類被要求比較輸出並選擇哪個更好——這是對不同模型進行排名的一種強力但有效的方法。

GPT-4o Mini 太新了,無法納入錦標賽風格的基準測試中,儘管他指出全尺寸的 GPT-4o 僅略微領先其競爭對手。 Anthropic 的旗艦產品Claude 3.5 Sonnet 目前有 1,271 分,而 GPT-4o 則有 1,287 分。 Gemini 1.5 Pro 也不甘落後,為 1,267。性能稍差但仍值得尊敬​​的型號包括 Nvidia 和 Mistral 的全新 Nemotron 4 340B Instruct(1,209 分)和 Meta 的 LlaMa 3 70B Instruct(1,201 分)。

GPT4o-Mini 比 Claude 3 Haiku 和 Gemini 1.5 Flash 便宜。

從這些測驗成績來看,從小到大,OpenAI可能是最好的LLMs,但它不再擁有曾經的主導地位。這可能是一件好事——在昂貴的人工智慧硬體和高功耗之間,人工智慧最不需要的就是一個LLM壟斷。

Share this post