Hugging Face 揭秘「 test-time scaling 」,讓小型語言模型也能展現出媲美大型語言模型的強大能力。

在一項新的案例研究中,Hugging Face 的研究人員展示了如何配置小型語言模型 (SLM),使其性能超越更大的模型。他們的研究結果表明,具有 30 億參數的 Llama 3 模型在複雜的數學問題中可以勝過該模型的 700 億版本。

Hugging Face 已經完整記錄了整個過程,並為希望創建自己客製化推理模型的企業提供了路線圖。

圖片來源:Hugging Face

擴展測試時計算

這項工作的靈感來自 OpenAI o1,它使用額外的「思考」來解決複雜的數學、編碼和推理問題。

像 o1 這樣的模型的關鍵思想是擴展「測試時計算」,這實際上意味著在推理過程中使用更多的計算週期來測試和驗證不同的響應和推理路徑,然後再產生最終答案。當沒有足夠的記憶體來運行大型模型時,擴展測試時計算尤其有用。

由於 o1 是一個私有模型,而 OpenAI 對其內部運作方式保持沉默,因此研究人員一直在猜測其工作原理並試圖逆向工程該過程。已經有幾個 o1 的開放替代方案

Hugging Face 的工作基於 DeepMind 在 8 月發布的一項研究,該研究調查了推理時計算和預訓練計算之間的權衡。該研究提供了關於如何平衡訓練和推理計算以在固定預算內獲得最佳結果的全面指南。

除了使用額外的推理時計算外,該技術的成功還取決於兩個關鍵組件:一個評估 SLM 答案的獎勵模型,以及一個優化其提煉答案的路徑的搜尋演算法。

圖片來源:Hugging Face

不同的推理演算法

使用測試時擴展的最簡單方法是「多數投票」,其中將相同的提示多次發送到模型,並選擇獲得最多票數的答案。在簡單的問題中,多數投票可能很有用,但其增益在複雜的推理問題或錯誤在各代之間一致的任務中會迅速趨於平緩。

一種更先進的推理方法是「N 中取優」。在這種技術中,SLM 生成多個答案,但不是使用多數投票,而是使用獎勵模型來評估答案並選擇最佳答案。「加權 N 中取優」是此方法更精細的版本,它考慮了連貫性以選擇既自信又比其他答案更頻繁出現的答案。

研究人員使用了一個「過程獎勵模型」(PRM),該模型不僅根據最終答案,還根據 SLM 達到最終答案所經歷的多個階段對其響應進行評分。他們的實驗表明,「加權 N 中取優」和 PRM 使 Llama-3.2 1B 在困難的 MATH-500 基準測試中接近 Llama-3.2 8B 的水平。

圖片來源:Hugging Face

添加搜尋

為了進一步提高模型的性能,研究人員在模型的推理過程中添加了搜尋演算法。他們沒有在單次傳遞中生成答案,而是使用了「束搜尋」,這是一種逐步引導模型回答過程的演算法。

在每個步驟中,SLM 生成多個部分答案。搜尋演算法使用獎勵模型來評估答案並選擇值得進一步探索的子集。重複此過程,直到模型耗盡其推理預算或找到正確答案。這樣,推理預算可以縮小範圍,以專注於最有希望的答案。

研究人員發現,雖然束搜尋提高了模型在複雜問題上的性能,但它在簡單問題上的表現往往不如其他技術。為了應對這一挑戰,他們在其推理策略中添加了另外兩個要素。

首先是「多樣化驗證樹搜尋」(DVTS),這是束搜尋的一種變體,可確保 SLM 不會陷入錯誤的推理路徑並使其響應分支多樣化。其次,他們開發了一種「計算最佳縮放策略」,正如 DeepMind 論文中建議的那樣,該策略根據輸入問題的難度動態選擇最佳的測試時縮放策略。

這些技術的結合使 Llama-3.2 1B 能夠發揮超常實力,並以顯著的優勢超越了 8B 模型。他們還發現該策略是可擴展的,當應用於 Llama-3.2 3B 時,他們能夠超越更大的 70B 模型。

還不是完美的解決方案

擴展測試時計算改變了模型成本的動態。企業現在可以選擇將其計算資源分配到何處。例如,如果您的記憶體不足或可以容忍較慢的響應時間,則可以使用小型模型並花費更多的推理時週期來生成更準確的答案。

然而,測試時擴展也有其局限性。例如,在 Hugging Face 進行的實驗中,研究人員使用了一個經過專門訓練的 Llama-3.1-8B 模型作為 PRM,這需要並行運行兩個模型(即使它比 70B 模型更具資源效率)。研究人員承認,測試時擴展的聖杯是擁有「自我驗證」,即原始模型驗證自己的答案,而不是依賴外部驗證器。這是一個開放的研究領域。

本研究中提出的測試時擴展技術也僅限於可以明確評估答案的問題,例如編碼和數學。為創意寫作和產品設計等主觀任務創建獎勵模型和驗證器需要進一步研究。

但顯而易見的是,測試時擴展已經產生了大量的興趣和活動,我們可以期待在未來幾個月內出現更多的工具和技術。企業明智的做法是密切關注格局的發展。

透過 Tenten 獲得關於 AI 與科技的每日見新聞

感謝閱讀!若有興趣進一步了解更多 AI 工具如何在特定場景發揮更強大效能,敬請關注我們的 Threads (Tenten.co / @TentenAI)會發佈後續文章或影片分享。下次見!

我們為您提供有關公司如何使用生成式 AI 的內幕消息,以便您可以分享見解以實現最大的投資回報率。

Share this post