OpenAI 的 GPT-4o Mini 確實很小, 更便宜

GPT-4o Mini vs GPT-3.5：誰將成為下一代小型 (SLM) 語言模型的霸主？

AI 綜述OpenAI 推出了 GPT-4o Mini——GPT-4o 生成型大語言模型的更小、更便宜的版本（LLM ) 。

微軟支持的超級實驗室週四表示， GPT-4o Mini 就像普通的GPT-4o一樣，它是多模式的- 它不僅可以處理書面文字- 並且具有128,000 個令牌的上下文窗口，並接受了截至10 月的材料的培訓2023 年。

OpenAI 的高端模型 GPT-4o 每百萬個輸入和輸出代幣的成本分別為 5 美元和 15 美元，而 Mini 版本的成本為 15 美分和 60 美分。如果使用延遲批次處理，您可以將這些數字減半。

我們被告知精簡版功能尚不完善，僅透過其 API 支援文字和視覺。其他輸入和輸出格式（例如音訊）將在不確定的未來出現。

在創建 GPT-4o Mini 時，OpenAI 強調了它的安全性，聲稱從培訓材料中過濾掉了攻擊性數據，並為其提供了與 GPT-4o 相同的護欄。據 OpenAI 稱，Mini 還導入了一個全新的機制 "指令層級結構：培訓LLMs優先處理特權指令"，理想情況下，可以阻止說服模型做不應該做的事情的嘗試，例如讓它忽略先前的指令並推翻其製造商的意圖。

「API中的GPT-4o mini是第一個應用我們的指令層次方法的模型，這有助於提高模型的抗越獄、提示注入和系統提示提取的能力。」超級實驗室表示。「這使得模型的響應更加可靠，並有助於使其在大規模應用程式中使用更安全。

“我們將繼續監控 GPT-4o mini 的使用方式，並在發現新風險時提高模型的安全性。”

此外，OpenAI 聲稱 GPT-4o Mini 領先於同類產品LLMs在基準測試中。與 Google 的輕量級 Gemini Flash 和 Anthropic 的 Claude Haiku 相比，Mini 在MMLU等測試中的準確度通常高出 5% 到 15%。在兩個異常值中，它的準確度幾乎是競爭對手的兩倍，而在另一個異常值中，它比 Gemini Flash 稍差，但據稱仍領先 Claude Haiku。

OpenAI 的 GPTo Mini 基準測試得分與其競爭對手相比…有些不錯，有些非常接近

OpenAI 和 Anthropic 之間的競爭具有個人優勢，因為後者是由前者的高階主管和工程師共同創立和建立的。

GPT-4o Mini 在上圖中看起來確實不錯，儘管它沒有全面領先——這表明 OpenAI 最近在該領域失去了絕對領導地位。LLM競技場。正如資深開源開發人員Simon Willison上個月在 AI 工程師世界博覽會上的主題演講中詳細介紹的那樣，OpenAI 的許多競爭對手在 2024 年發布了自己的 GPT-4 級模型。

「最好的模型集中在一起：GPT-4o、全新的 Claude 3.5 Sonnet 和 Google Gemini 1.5 Pro，」Willison宣稱。「我將所有這些歸類為 GPT-4 類。這些是最好的可用型號，我們現在有 GPT-4 以外的選擇。價格也不錯——比過去便宜得多。”

GPT-4o Mini 的 MMLU 準確度為 82%，每百萬代幣的成本為 15 美分，在很大程度上處於領先地位。然而，Willison 指出 LMSYS Chatbot Arena基準測試提供了更現實的評估LLM質量，因為實際的人類被要求比較輸出並選擇哪個更好——這是對不同模型進行排名的一種強力但有效的方法。

GPT-4o Mini 太新了，無法納入錦標賽風格的基準測試中，儘管他指出全尺寸的 GPT-4o 僅略微領先其競爭對手。 Anthropic 的旗艦產品Claude 3.5 Sonnet 目前有 1,271 分，而 GPT-4o 則有 1,287 分。 Gemini 1.5 Pro 也不甘落後，為 1,267。性能稍差但仍值得尊敬的型號包括 Nvidia 和 Mistral 的全新 Nemotron 4 340B Instruct（1,209 分）和 Meta 的 LlaMa 3 70B Instruct（1,201 分）。