開放原始碼大模型領域風雲變幻,新一代王者 Reflection 70B 橫空出世,席捲各大基準測試榜單。

一個新創團隊HyperWrite打造的模型Reflection70B橫空出世,以驚人的99.2%準確率在GSM8K數學測試中一舉超越了GPT-4等頂級商業模型,瞬間引爆了整個AI圈。這個由小型創業團隊HyperWrite打造的模型,是如何在短短三周內完成訓練並達到如此卓越的性能?讓我們一起揭開Reflection70B的秘密

ReflectionLlama使用一種稱為Reflection-Tuning的新技術進行訓練。Reflection70B最引人注目的特點是其獨特的自我糾錯機制。這個模型採用了一種名為"Reflection-Tuning"的創新訓練方法,使其能夠在生成回答的過程中不斷反思和修正自己的錯誤。

在回答問題時,模型會先在標籤內輸出其推理過程。如果在這個過程中發現了錯誤,它會立即在標籤中進行自我糾正。只有當模型確信自己的推理無誤時,才會在標籤內給出最終答案

在 MMLU、MATH、IFEval、GSM8K 等權威測試中,Reflection 70B 全面超越 GPT-4o,甚至擊敗了擁有 4050 億參數的 Llama 3.1,成為開放原始碼模型領域的新標桿。

AI 寫作新貴 HyperWrite 打造開放原始碼利器

這款強大的模型出自 AI 寫作新創公司 HyperWrite 之手。

HyperWrite CEO Matt Shumer 宣稱,Reflection-70B 是目前「全球性能最強的開放原始碼 AI 模型」。

Reflection 70B 基於 Meta 的 Llama 3.1 70B Instruct 模型建構,並採用了原始的 Llama chat 格式,確保與現有工具和流程的兼容性。

多項基準測試奪冠,性能比肩頂級商用模型

Reflection 70B 經歷了 MMLU 和 HumanEval 等多項基準測試的嚴苛考驗,結果表明,它不僅全面超越 Meta 的 Llama 系列,更能與 GPT-4o 等全球頂尖商用模型正面交鋒。

尤其值得一提的是,Reflection 70B 在 GSM8K 測試中取得了 99.2% 的驚人成績。考慮到 GSM8k 中可能存在超過 1% 的標注錯誤,這意味著 Reflection 70B 的得分已接近完美。

此外,Reflection 70B 還展現出強大的零樣本推理能力。在面對從未接觸過的內容時,它的表現超越了 Claude 3.5、Gemini 1.5 以及五次樣本測試中的 Llama 405。

Reflection 70B 特別適用於對精度要求較高的任務,它將推理過程分解為多個步驟,從而提高準確性。該模型可通過 Hugging Face 下載,API 訪問將通過 GPU 服務提供商 Hyperbolic Labs 提供。

自動糾錯,更勝一籌

除了強大的通用能力外,Reflection 70B 還擁有獨特的「錯誤識別」和「錯誤糾正」能力。

這得益於一項名為「Reflection-Tuning」的技術,該技術使模型能夠在最終生成回復之前,檢測並糾正自身推理過程中的錯誤。

Reflection 70B 引入了一些用於推理和糾錯的特殊標記,使用戶可以更結構化地與模型交互。在推理過程中,模型會在特殊標籤內輸出其推理步驟,以便在檢測到錯誤時進行即時糾正。

Playground Demo 網站提供了一些建議提示詞供用戶嘗試,例如經典的「Strawberry」單詞中有多少個「r」以及 9.11 和 9.9 哪個數字更大等問題,這些問題曾讓許多大模型束手無策。

Reflection 70B 在測試中展現出一定的延遲,但在 60 多秒后最終給出了正確答案。

Reflection 70B 只是 Reflection 系列的開端。據悉,擁有 4050 億參數的 Reflection 405B 也即將推出,預計下周上市。Shumer 表示,它的性能將遠超目前市面上的所有專有或閉源大型語言模型,包括 OpenAI 的 GPT-4o。

Shumer 宣布,HyperWrite 正致力於將 Reflection 70B 模型整合到其旗艦 AI 寫作助手產品中。

Reflection 405B 有望成為開放原始碼模型領域的新霸主。HyperWrite 將發布一份詳細報告,介紹訓練過程、基準測試結果以及 Reflection 模型背後的創新之處。

Glaive 合成數據助力,兩人數周完成訓練

Shumer 透露,Reflection 70B 的訓練僅耗時三周,團隊只有他和另一位 AI 創業公司 Glaive 的創始人 Sahil Chaudhary 兩人。

如此短的時間內取得如此優異的成績,Shumer 將其歸功於 Sahil 的公司 Glaive。Glaive 是一家專門為特定需求建構數據集的新創公司。Shumer 在 X 平台上多次強調:「聯繫 Sahil 后,訓練數據在幾個小時內就生成了。」他還親自為 Glaive 站台:「如果你正在訓練 AI 模型,一定要試試 Glaive 提供的服務。」

Glaive 專注於解決 AI 開發中最大的瓶頸之一:高質量、特定任務數據的獲取。去年,Glaive 獲得了 350 萬美元的種子輪融資。

小型、更專業的語言模型在使用 Glaive 提供的服務后,能夠更快地完成訓練。一些小型模型已經證明了 Glaive 的實力,例如一個 30 億參數的模型在 HumanEval 等任務上的表現超過了許多規模更大的開放原始碼模型。

一經發布,火爆異常,GPU 資源告急

Reflection 70B 一經發布便引發轟動,大量用戶湧入試用,導致模型不堪重負。

雖然 Reflection 70B 提供了在線試用,但目前響應速度非常緩慢。

但根據搶先體驗的用戶回饋,Reflection 70B 確實名不虛傳,在六個基礎測試集中有四個都擊敗了 Claude 3.5 Sonnet。

例如,它是第一個能夠解決這道複雜邏輯題的大模型。

提示詞:有人在某地殺害了 Agatha。Agatha、管家和 Charles 住在此地,並且是那裡唯一的居民。兇手憎恨他的目標,並且比受害者窮。Charles 不憎恨 Agatha 憎恨的任何人。Agatha 除了管家之外憎恨所有人。管家憎恨所有不如 Aunt Agatha 富有的人。管家憎恨所有 Agatha 憎恨的人。沒有人憎恨所有人。誰殺害了 Agatha?

當被問及「柏林魏森湖地區的當地人通常在哪裡聚會?當地有哪些景點?」時,其他模型雖然也能給出一些正確答案,但總會夾雜一些柏林以外的地點。Reflection 70B 是第一個能夠準確說出主要地點,並且沒有出現幻覺的模型。

Reflection-70B 的編碼能力也得到了驗證。有用戶在 ProLLM 的編碼輔助任務中對其進行了基準測試,結果表明,它是目前最好的開放原始碼模型之一,擊敗了 Llama-3.1 405B。

然而,Reflection 70B 的底層模型採用 Meta 的 Llama 3.1 70B Instruct 也引發了一些爭議。

有用戶認為:「Reflection 70B 只是元提示(Meta-Prompting)方面的一種進步,似乎算不上創新。」

但也有人反駁道,「利用思維鏈並讓大模型說出自己的工作流程」這種方法能夠讓大模型更好地模擬人類的思考過程。

「或許 Shumer 的 Reflection-tuning 方法,正是 OpenAI 的 Strawberry 方法呢?」

團隊介紹

Reflection 70B 似乎橫空出世,HyperWrite 公司也並不廣為人知。但實際上,Shumer 是一位經驗豐富的 AI 創業者:早在 2020 年,他就與 Jason Kuperberg 共同創立了 Otherside AI。

從左至右分別為 Otherside AI 的聯合創始人:Matt Shumer, Miles Feldstein 與 Jason Kuperberg。

Otherside AI 的旗艦產品 HyperWrite 曾經風靡一時。HyperWrite 最初是一款根據要點撰寫郵件和資訊的 Chrome 外掛,後來功能不斷擴展,新增了起草文章、總結文本等功能。截至 2023 年 11 月,HyperWrite 擁有 200 萬用戶。隨著兩位聯合創始人入選福布斯年度「30 歲以下精英」榜單,Otherside AI 也正式更名為 HyperWrite。

在最新一輪融資中, HyperWrite 獲得了 280 萬美元的投資。憑借這筆資金,HyperWrite 引入了 AI 驅動功能,升級成為可以從網頁瀏覽器自動完成預訂航班、在 LinkedIn 上篩選履歷的智能管家。


其他相關連結

參考連結:


您的企業需要 AI 轉型 嗎,讓 AI 顧問協助您?

利用Tenten的AI解決方案革新您的工作流程。讓我們善用生成式人工智能的力量來簡化您的流程並提高生產力。立即預約免費諮詢,了解我們如何能夠提升您組織的效率。

Share this post