重點:

  • 今天,Meta發布了 Llama 3.2,其中包括適用於邊緣和行動裝置的小型和中型視覺大型語言模型(11B 和 90B),以及輕量級的純文字模型(1B 和 3B),包含預訓練和指令微調版本。
  • Llama 3.2 1B 和 3B 模型支援 128K 詞元的上下文長度,並且在其類別中處於領先地位,適用於設備上的使用案例,例如摘要、指令遵循和在邊緣本地執行的重寫任務。這些模型在 Qualcomm 和 MediaTek 硬體上第一天即可啟用,並針對 Arm 處理器進行了優化。
  • Llama 3.2 11B 和 90B 視覺模型由廣泛的生態系統支援,可以直接替換其對應的文字模型,同時在圖像理解任務上超越了封閉模型,例如 Claude 3 Haiku。與其他開放的多模態模型不同,預訓練和對齊模型均可使用 torchtune 進行微調以適應自訂應用程式,並使用 torchchat 在本地部署。您也可以使用Meta的智慧助理 Meta AI 試用它們。
  • Meta正在分享第一個官方的 Llama Stack 發行版,這將大大簡化開發人員在不同環境(包括單節點、本地、雲端和設備上)中使用 Llama 模型的方式,從而實現具有集成安全性的檢索增強生成 (RAG) 和工具啟用應用程式的快速部署。
  • Meta一直與 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作夥伴密切合作,為其下游企業客戶構建 Llama Stack 發行版。設備上的發行版通過 PyTorch ExecuTorch 進行,單節點發行版通過 Ollama 進行。
  • Meta持續分享Meta的工作,因為Meta相信 開放性驅動創新,對開發人員、Meta 和世界都有益。Llama 已經在開放性、可修改性和成本效益方面處於領先地位,使更多人能夠使用生成式人工智慧取得具有創造性、實用性和改變生活的突破。
  • Meta將在 llama.comHugging Face 上提供 Llama 3.2 模型供下載,並可在Meta廣泛的合作夥伴平台生態系統(包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake 等)上立即進行開發。

自從Meta兩個月前宣布 Llama 3.1 模型系列 以來,Meta一直對其產生的影響感到興奮,其中包括 405B——第一個開放的前沿級人工智慧模型。雖然這些模型功能非常強大,但Meta也認識到,使用它們進行構建需要大量的計算資源和專業知識。Meta還聽到一些開發人員表示,他們無法獲得這些資源,但仍然希望有機會使用 Llama 進行構建。正如 Meta 創始人兼執行長馬克·祖克柏今天在 Connect 上分享的那樣,他們不必再等待了。今天,Meta發布了 Llama 3.2,其中包括適用於特定邊緣和行動裝置的小型和中型視覺大型語言模型(11B 和 90B)以及輕量級的純文字模型(1B 和 3B)。

自從Meta首次宣布 Llama 以來,僅僅過了一年半的時間,Meta在如此短的時間內取得了令人難以置信的進展。今年,Llama 的使用量增長了 10 倍,並成為負責任創新的標準。Llama 也繼續在開放性、可修改性和成本效益方面處於領先地位,並且與封閉模型相比具有競爭力,甚至在某些領域處於領先地位。Meta相信開放性驅動創新,是正確的前進道路,這就是為什麼Meta繼續分享Meta研究成果並與合作夥伴和開發者社群合作的原因。

Meta將在 llama.comHugging Face 上提供 Llama 3.2 模型供下載,並可在Meta廣泛的合作夥伴平台生態系統上立即進行開發。合作夥伴是這項工作的重要組成部分,Meta與包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud 和 Snowflake 在內的 25 多家公司合作,以便在第一天就啟用服務。對於 Llama 3.2 版本,Meta還與設備合作夥伴 Arm、MediaTek 和 Qualcomm 合作,在發布時提供廣泛的服務。從今天開始,Meta還將向社群提供 Llama Stack。有關最新版本的更多詳細資訊,包括歐洲 多模態可用性 的資訊,請參閱Meta的可接受使用政策

認識 Llama 3.2

Llama 3.2 系列的兩個最大模型 11B 和 90B 支援圖像推理用例,例如文件級理解(包括圖表),圖像的字幕,以及視覺基礎任務,例如根據自然語言描述定向精確定位圖像中的物體。例如,一個人可以詢問有關其小型企業在上一年哪個月份銷售額最佳的問題,然後 Llama 3.2 可以根據可用的圖表進行推理並快速提供答案。在另一個示例中,該模型可以根據地圖進行推理,並幫助回答諸如何時徒步旅行可能會變得更陡峭或地圖上標記的特定路線的距離等問題。11B 和 90B 模型還可以通過從圖像中提取細節、理解場景,然後撰寫可以用作圖像標題的一兩句話來幫助講述故事,從而彌合視覺和語言之間的差距。

輕量級的 1B 和 3B 模型具有多語言文字生成和工具調用能力。這些模型使開發人員能夠構建具有強大隱私性的個人化設備上代理應用程式,數據永遠不會離開設備。例如,這樣的應用程式可以幫助總結收到的最後 10 條訊息,提取行動項目,並利用工具調用直接發送日曆邀請以進行後續會議。

在本地運行這些模型具有兩個主要優點。首先,由於處理是在本地完成的,因此提示和回應可以感覺到是即時的。其次,在本地運行模型可以通過不將訊息和日曆資訊等數據發送到雲端來維護隱私,從而使整個應用程式更加私密。由於處理是在本地處理的,因此應用程式可以清楚地控制哪些查詢保留在設備上,哪些查詢可能需要由雲端中更大的模型進行處理。

模型評估

Meta的評估表明,Llama 3.2 視覺模型在圖像識別和一系列視覺理解任務上與領先的基礎模型 Claude 3 Haiku 和 GPT4o-mini 相比具有競爭力。3B 模型在遵循指令、摘要、提示重寫和工具使用等任務上優於 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型與 Gemma 相比具有競爭力。

Meta在涵蓋多種語言的 150 多個基準數據集上評估了效能。對於視覺大型語言模型,Meta在圖像理解和視覺推理的基準上評估了效能。

視覺模型

作為第一批支援視覺任務的 Llama 模型,11B 和 90B 模型需要一個全新的模型架構來支援圖像推理。

為了增加圖像輸入支援,Meta訓練了一組適配器權重,將預訓練的圖像編碼器集成到預訓練的語言模型中。該適配器由一系列交叉注意力層組成,這些層將圖像編碼器表示饋送到語言模型中。Meta在文字-圖像對上訓練了適配器,以使圖像表示與語言表示對齊。在適配器訓練期間,Meta還更新了圖像編碼器的參數,但特意沒有更新語言模型參數。這樣做,Meta可以保持所有純文字功能的完整性,為開發人員提供 Llama 3.1 模型的直接替代品。

Meta的訓練流程由多個階段組成,從預訓練的 Llama 3.1 文字模型開始。首先,Meta添加圖像適配器和編碼器,然後在大規模雜訊(圖像,文字)配對數據上進行預訓練。接下來,Meta在中等規模的高質量域內和知識增強(圖像,文字)配對數據上進行訓練。

在後續訓練中,Meta使用與文字模型類似的流程,通過對監督微調、拒絕抽樣和直接偏好優化進行多輪對齊。Meta利用 Llama 3.1 模型通過在域內圖像之上過濾和擴充問題和答案來生成合成數據,並使用獎勵模型對所有候選答案進行排名,以提供高質量的微調數據。Meta還添加了安全緩解數據,以生成具有高安全級別的模型,同時保持模型的有效性。

最終結果是一組可以同時接收圖像和文字提示,並深入理解和推理組合的模型。這是 Llama 模型擁有更豐富代理能力的又一步。

輕量級模型

正如Meta在 Llama 3.1 中談到的那樣,可以利用功能強大的教師模型來創建效能更高的較小模型。Meta在 1B 和 3B 模型上使用了兩種方法——剪枝和蒸餾——使它們成為第一批可以有效地安裝在設備上的高性能輕量級 Llama 模型。

剪枝使Meta能夠減少 Llama 系列中現有模型的大小,同時盡可能多地恢復知識和效能。對於 1B 和 3B 模型,Meta採用了從 Llama 3.1 8B 一次性進行結構化剪枝的方法。這涉及系統地移除網路的某些部分,並調整權重和梯度的大小,以創建一個更小、更高效的模型,同時保留原始網路的效能。

知識蒸餾使用較大的網路將知識傳授給較小的網路,其思想是,較小的模型可以使用教師模型獲得比從頭開始更好的效能。對於 Llama 3.2 中的 1B 和 3B,Meta將 Llama 3.1 8B 和 70B 模型的 logits 納入模型開發的預訓練階段,其中這些較大模型的輸出(logits)被用作詞元級目標。知識蒸餾在剪枝後使用以恢復效能。

在後續訓練中,Meta使用與 Llama 3.1 類似的流程,並通過在預訓練模型之上進行多輪對齊來生成最終的聊天模型。每一輪都涉及監督微調 (SFT)、拒絕抽樣 (RS) 和直接偏好優化 (DPO)。

在後續訓練中,Meta將上下文長度支援擴展到 128K 詞元,同時保持與預訓練模型相同的質量。Meta還參與了合成數據生成,經過仔細的數據處理和過濾以確保高質量。Meta仔細地混合數據,以優化多種能力的高質量,例如摘要、重寫、指令遵循、語言推理和工具使用。

為了使社群能夠在這些模型上進行創新,Meta與全球最大的兩家行動系統單晶片 (SoC) 公司 Qualcomm 和 Mediatek,以及為 99% 的行動裝置提供基礎計算平台的 Arm 密切合作。今天發布的權重基於 BFloat16 數字。Meta的團隊正在積極探索量化變體,這些變體將運行得更快,Meta希望很快能分享更多相關資訊。

Llama Stack 發行版

7 月,Meta發布了關於 Llama Stack API 的徵求意見稿,這是一個用於規範工具鏈組件(微調、合成數據生成)的標準化介面,用於自訂 Llama 模型和構建代理應用程式。參與度很高。

從那時起,Meta一直在努力使 API 成為現實。Meta為推理、工具使用和 RAG 構建了 API 的參考實現。此外,Meta一直與合作夥伴合作,使他們成為 API 的提供商。最後,Meta引入了 Llama Stack 發行版,作為一種打包多個 API 提供商的方法,這些提供商可以很好地協同工作,為開發人員提供單個端點。Meta現在正在與社群分享一種簡化且一致的體驗,使他們能夠在多個環境中使用 Llama 模型,包括本地、雲端、單節點和設備上。

完整版本包括:

  1. Llama CLI(命令列介面),用於構建、配置和運行 Llama Stack 發行版
  2. 多種語言的客戶端程式碼,包括 python、node、kotlin 和 swift
  3. Llama Stack 發行版伺服器和代理 API 提供商的 Docker 容器
  4. 多個發行版
    1. 通過 Meta 內部實現和 Ollama 的單節點 Llama Stack 發行版
    2. 通過 AWS、Databricks、Fireworks 和 Together 的雲端 Llama Stack 發行版
    3. 通過 PyTorch ExecuTorch 實現的 iOS 上的設備上 Llama Stack 發行版
    4. 由 Dell 支援的本地 Llama Stack 發行版

Meta期待與開發人員和合作夥伴合作,簡化使用 Llama 模型構建的各個方面,並歡迎提供回饋。

系統級安全

採取開放的方法有很多好處。它有助於確保世界各地更多的人能夠獲得人工智慧提供的機會,防止權力集中在少數人手中,並在整個社會中更公平、安全地部署技術。隨著Meta不斷創新,Meta還希望確保Meta正在賦能開發人員構建安全可靠的系統。

基於Meta之前的版本和持續支援負責任創新的努力,今天Meta將為Meta的保障措施系列新增一些更新:

  • 首先,Meta將發布 Llama Guard 3 11B Vision,旨在支援 Llama 3.2 的新圖像理解能力,並過濾這些提示的文字+圖像輸入提示或文字輸出回應。
  • 其次,當Meta發布 1B 和 3B Llama 模型以在設備上等更受限的環境中使用時,Meta還優化了 Llama Guard 以大幅降低其部署成本。Llama Guard 3 1B 基於 Llama 3.2 1B 模型,並且經過剪枝和量化,將其大小從 2,858 MB 減小到 438 MB,使其部署效率比以往任何時候都更高。

這些新的解決方案已集成到Meta的參考實現、演示和應用程式中,並已準備好供開源社群在第一天使用。

立即試用 Llama 3.2

Llama 3.2 已準備好覆蓋比以往任何時候都多的人,並實現令人興奮的新用例。Meta相信,與開源社群分享這些模型是不夠的。Meta希望確保開發人員也擁有負責任地使用 Llama 構建所需的工具。作為Meta持續的負責任發布工作的一部分,Meta正在為開發人員提供新的工具和資源,並且一如既往,Meta將在Meta的負責任使用指南 中更新最佳實務。

Meta將繼續分享 Llama 生態系統中的最新進展,因為Meta相信開放性驅動創新,對開發人員、Meta 和世界都有益。Meta很高興繼續與合作夥伴和開源社群進行對話,並且一如既往,Meta迫不及待地想看到社群使用 Llama 3.2 和 Llama Stack 構建的成果。

這項工作得到了Meta在整個 AI 社群的合作夥伴的支援。Meta感謝並表彰(按字母順序排列):埃森哲、AMD、Arm、AWS、Cloudflare、Databricks、Dell、Deloitte、Fireworks.ai、Google Cloud、Groq、Hugging Face、IBM watsonx、Infosys、Intel、Kaggle、Lenovo、LMSYS、MediaTek、Microsoft Azure、NVIDIA、OctoAI、Ollama、Oracle Cloud、PwC、Qualcomm、Sarvam AI、Scale AI、Snowflake、Together AI 和加州大學柏克萊分校 - vLLM 項目。

LLama 3.2 FAQ

1. Meta 為什麼發布 Llama 3.2 模型系列?

Meta 發布 Llama 3.2 模型系列是為了推動開放性和可自訂的模型提供更多創新,並提升 Edge AI 和 AI 視覺應用的能力,使開發者和研究人員能夠輕鬆打造專屬的 AI 解決方案。

2. Llama 3.2 對於設備上的應用有哪些優勢?

Llama 3.2 的 1B 和 3B 模型支援 128K 詞元的上下文長度,適合設備上的使用案例,例如摘要、指令遵循和在邊緣本地執行的重寫任務。在本地運行時,這些模型能夠提供即時的處理速度,並確保更加私密的數據處理。

3. Llama 3.2 視覺模型有哪些特點?

Llama 3.2 的 11B 和 90B 視覺模型支持圖像理解和推理任務,能夠進行文件級理解和根據自然語言描述定向精確定位圖像中的物體,增強了視覺和語言之間的交互。

4. Llama Stack 發行版本有哪些?

Llama Stack 發行版本包括本地、雲端、單節點和設備上的多環境版本,可以透過多語言客戶端程式碼和 Docker 容器進行開發和運行,提高了開發人員使用 Llama 模型的便捷性。

5. Meta 如何確保 Llama 3.2 的安全性?

Meta 為 Llama 3.2 提供了 Llama Guard 3,用於支援新圖像理解能力,並過濾文字+圖像輸入提示或輸出回應。這些保障措施與新的解決方案一起集成在 Meta 的演示和應用程序中,以確保開源社群的安全性。

Share this post