小模型崛起：性能與效率的完美平衡，企業應用AI新時代來臨

大模型退燒，小模型（SLM）崛起，撕開99%企業市場？

許多人可能會困惑，在大模型（LLM）當前火熱的情況下，什麼是小模型（SLM）？目前，市場上通常將參數規模遠小於GPT-4或Llama-13B的大語言模型，參數只有1.5B、3B、7B的模型稱為小模型。

小模型現在有多火？僅僅在7月下半月，4家科技公司紛紛推出自己的小模型。

Hugging Face 推出了高性能的小型語言模型 SmoLLM，包括 135M、360M 和 1.7B，能夠直接在瀏覽器中運行；OpenAI 緊隨其後發布了GPT-4o mini，直接讓GPT-3.5 Turbo成為歷史；Mistral AI 與英偉達合作推出了擁有 12 億參數的 Mistral Nemo，多語言支持、128K 上下文，性能優於L3 8B和Gemma 2 9B；蘋果也不甘示弱，發布了70億參數的小模型 DCLM-7B，並立即將其全部開放原始碼。

若將時間線推至今年上半年，便可發現小模型市場早已經「神仙打架」，OpenAI 的 GPT4o-mini 如微軟4月發布了Phi-3、Meta 的 LLama , Google 2月發布了Gemma-7B等。半年內6款知名的小模型發布，行業掀起了小模型的旋風。

儘管小模型市場競爭激烈，但我們發現企業部署私有大模型，服務的海外客戶最常見的模型仍是GPT-3.5 turbo。

然而，情況大變。無論是GPT-3.5還是GPT-4，已經成為企業市場的「舊愛」。這些參數小但能力大的小模型，憑藉其超高性價比，一時之間成為市場新寵。2024年會成為SLM元年嗎？

小模型憑什麼火？

在Scaling Law（尺度定律）的信仰下，一直向著萬億大模型進軍的科技巨頭們，紛紛轉向了小模型，這可能有以下三大原因：

1. 大模型太貴

對於開發者而言，訓練大模型和燒錢無異。最先進的大模型，昂貴的原因首當其衝是硬體訓練成本。GPU、TPU和CPU集群都是基本裝備。OpenAI用25,000塊A100晶元訓練GPT-4，馬斯克宣布要用10萬塊H100組成超級AI訓練集群。其次是能源消耗，據數據顯示，全美AI數據中心的耗電量足以點亮整個紐約市。此外，人力成本、訓練數據成本也不容小覷。

隨著模型的參數數量呈指數級增長，訓練成本也在急劇上升。Anthropic首席執行官Dario Amodei表示，目前正在開發的人工智慧模型的訓練成本高達10億美元，未來三年可能上升到100億美元甚至1000億美元。至於GPT-4o「僅僅1億美元的開發成本，已經不值一提」。

主流AI模型的訓練和推理成本巨大，讓巨頭們紛紛放下參數執念，投身小模型。小語言模型是大語言模型的濃縮版本，參數更少，設計更精煉，自然需要更少的數據、訓練時間及硬體成本。例如僅僅聚焦於法律問題的小模型，參數不到100億，訓練成本可能不到1000萬美元。

2. 小模型性能也拉滿

最新發布的GPT-4o mini在lmsys測評榜單中表現出色，不僅與GPT-4o滿血版本並列榜首，還將Claude 3.5等對手甩在身後。據OpenAI公布的案例顯示，GPT-4o mini在執行從收據文件中提取結構化數據等任務時，表現明顯優於GPT-3.5 Turbo。更令人期待的是，GPT-4o mini的API現已支持文本和視覺，未來還將支持文本、圖像、影片和音頻輸入和輸出。

3. 小模型憑其小巧身姿進入更多應用場景

大模型在使用場景上有很多局限，如智能手機、物聯網設備等邊緣設備通常具有有限的計算能力和存儲空間，無法承載大型語言模型，而小模型則可以完美嵌入。在對即時性有嚴格要求的應用領域，如即時圖像分析、語音識別和動態推薦系統，小模型能夠迅速推理，以極短的延遲滿足使用者的即時需求。

小模型有這麼多優點，為何巨頭們現在才開始重視？

Open AI的產品主管Olivier Godement解釋，這是「純粹的優先順序」問題。之前公司專注於GPT-4這類大模型上，隨著時間推移，才關注到開發者對小模型的需求。還有觀點認為，大模型是通往小模型的必經之路。大型模型的訓練像是海綿吸水，盡可能把所有數據囊括其中。而小模型則是站在大模型的肩膀上進一步優化，接收由超大模型清洗的高質量數據。

這種模式正成為新趨勢，科技巨頭不再一味求大，而是求精。OpenAI首席執行官Sam Altman宣布了大型AI模型時代的結束，數據質量是AI訓練的關鍵成功因素，並認為關鍵問題是如何從更少的數據中學到更多的東西。

未來，小模型價格將不斷下降。OpenAI證明了這一點，每三個月會有模型成本下降60%，或成本下降60%的情況下質量更高。GPT-4o mini就是這種邏輯的成果體現，隨著高質量數據集和訓練方式的改進，小模型有些能力甚至更突出。

AI Grant所說，沒理由認為更小的模型不會有更好的表現。未來將湧現更多精簡、高效、便宜的小模型。

https://x.com/karpathy/status/1814038096218083497

企業落地最愛，小模型加速商業化

「企業專用大模型，百億參數就夠了」是過去我們常聽到的認知。

但實際上，2023年將小模型向垂直方向微調，效果並沒有那麼好，百億參數不夠用。現在情況不一樣了，GPT-4o-mini在很多場景中不用微調，也不比Chat-4 turbo差。

有AI創業者反饋，GPT-4o-mini效果很好，速度快，結果讀取幾乎不需要等待。日常需要搜索引擎+博客或教程才能解決的任務，GPT-4o-mini基本可以完成得不錯。

HuggingFace CEO Clem Delangue甚至指出，99%的使用場景可以通過SLM來解決，並預測2024年將是SLM元年。例如，我們之前做的醫療和公共事業導入LLM的客戶，過去我們用GPT4o大模型，但4o-mini發布那天，發現其性能更好，費用更低，更適合取代GPT4o用在企業端導入。

這意味著模型生態向著流動、精準進一步發展。大模型、小模型將分工明確，大模型繼續在需要廣泛知識基礎和高級認知能力的領域中發揮核心作用；小模型則以其輕巧身形和高效性能，在成本敏感、對響應時間有嚴格要求的應用場景中大放異彩。

我們預期未來將看到更多更高效、更便宜的小模型，並在企業落地應用中大放異彩。Forrester Research的資深AI分析師Rowan Curran所比喻：「並非時刻都需要跑車，有時一輛小型貨車或皮卡車更為合適。未來的模型應用將根據不同需求選擇最適宜的工具。」

甚至未來，大、小模型之間會出現任務的上下級協作。DeepMind、普林斯頓大學和斯坦福大學的研究人員近日提出了一項名為LATM（LLMs As Tool Makers）的創新框架，即讓大型語言模型生成自己的軟體工具來處理新任務。這種模式既節省成本又保證性能，將需要高強度算力才能實現的工具製造過程分配給功能強大、資源密集型的模型，例如GPT-4；而將相對簡單的使用工具過程分配給輕量級、經濟高效的小模型。

如今市場上，99%的企業實際上還沒有部署大模型進入業務。隨著小模型的風靡，輔以大模型的托底，這一巨大的市場會不會在2024年被撕開？