OpenAI 最新釋出的 gpt-oss,是一組「開放權重」的推理導向語言模型,包含 gpt-oss-120b 與 gpt-oss-20b。它們主打強推理、強工具使用能力、可在消費級硬體高效部署,並以 Apache 2.0 授權提供商用與再散布的彈性。

和傳統的「開源程式碼」不同,開放權重(open-weight)的重點是公開模型權重與使用條款,讓你能下載、在本地執行、微調與整合到自家系統,不必連網或經過雲端 API。這對重視資料隱私與低延遲的團隊很關鍵。

兩個型號:gpt-oss-120b vs gpt-oss-20b(怎麼選)

  • gpt-oss-120b:在核心推理基準上逼近 OpenAI o4-mini,且能在單張 80 GB GPU 上高效運行,適合需要更高推理能力、仍想保有自主管理與可微調性的團隊。
  • gpt-oss-20b:在常見基準上接近 o3-mini,僅需約 16 GB 記憶體即可在邊緣裝置或一般高規個人電腦上跑,是裝置端應用、本地推論與快速迭代的甜蜜點。

兩者都支援鏈式思考(CoT)、少量示範函式呼叫、結構化輸出、可調整 reasoning_effort(低/中/高)來在延遲與品質間取捨,並原生設計於 agentic workflow(可搜尋網路、執行 Python、呼叫工具)中表現出色。

AIMECompetition math
GPQA Diamond (tools)PhD-level science questions

gpt-oss-120b 與 gpt-oss-20b 模型

gpt-oss-120b 模型在核心推理基準測試中的表現與 OpenAI o4-mini 幾乎持平,且僅需單塊 80 GB GPU 即可高效運行。 gpt-oss-20b 模型在常見基準測試中的結果與 OpenAI o3-mini 相似,並且可在僅配備 16 GB 內存的邊緣設備上運行,使其成為設備端用例、本地推理或快速迭代的理想選擇,無需昂貴的基礎設施。這兩個模型在工具使用、小樣本函數呼叫、CoT 推理(從 Tau-Bench 代理評估套件的結果可以看出)和 HealthBench 方面也表現出色(甚至超越了 OpenAI o1 和 GPT-4o 等專有模型)

預訓練和模型架構

GPT-OSS 模型採用了OpenAI最先進的預訓練和後訓練技術進行訓練,尤其註重推理能力、效率以及在各種部署環境中的實際可用性。雖然我們已經開放了其他模型,包括 Whisper 和 CLIP ,但 GPT-OSS 模型是我們自 GPT-2 以來首次開放權重的語言模型。

每個模型都是一個 Transformer,它利用混合專家 (MoE  ) 來減少處理輸入所需的活動參數數量。 gpt-oss-120b 每個 token 活化 51 億個參數,而 gpt-oss-20b 活化 36 億個參數。這兩個模型分別有 117 億和 21 億個總參數。這些模型使用交替的密集和局部帶狀稀疏注意模式,類似於 GPT-3  。為了提高推理和記憶體效率,這些模型還使用了分組多查詢注意模式,每個組的大小為 8。我們使用旋轉位置嵌入 (RoPE ) 進行位置編碼,並且原生支援高達 128k 的上下文長度。


GPT-OSS模型架構與規格詳解

GPT-OSS系列包含兩個不同規模的模型版本,各自針對特定應用場景進行優化。這兩款模型都採用Apache 2.0授權協議,確保了商業應用的最大彈性。

模型版本 參數量 專家數量 激活專家數 硬體需求 應用場景
GPT-OSS-120B 1200億 128位 4位 H100等專業GPU 企業級複雜推理任務
GPT-OSS-20B 200億 32位 4位 16GB記憶體設備 邊緣計算與即時應用

GPT-OSS的核心創新在於其混合專家(MoE)架構設計。這種架構運作原理類似於專業顧問團隊,透過智慧門控網路選擇最適合當前任務的專家組合,實現了計算效率與模型能力的最佳平衡。

開放權重的革命性意義

開放權重與傳統開源概念存在本質差異。傳統開源僅提供程式碼框架,而GPT-OSS則釋出了經過海量數據訓練的完整模型權重,這相當於直接提供了AI的"思維能力"。

開放權重帶來的三大核心優勢:

優勢類別 具體內容 商業價值
成本控制 自主部署vs按量付費 大規模應用成本降低70%以上
數據主權 完全本地化運行 符合金融醫療等行業合規要求
深度訂製 私有數據微調 打造專屬行業AI解決方案

技術創新的多層次突破

GPT-OSS在多個技術維度實現了重要突破,這些創新共同構成了其卓越性能的基礎。

注意力機制優化

模型採用混合注意力策略,交替運用窗口注意力和密集注意力兩種模式。窗口注意力專注於局部上下文,提供高效計算;密集注意力則捕捉長距離依賴關係,確保全局理解能力。這種設計配合GQA(分組查詢注意力)和RoPE位置編碼,在保持高性能的同時大幅降低了計算資源需求。

超長上下文處理能力

GPT-OSS原生支援高達128K token的上下文長度,這項能力對於處理大型文檔、複雜程式碼庫分析和長篇學術論文解讀具有決定性意義。相較於傳統模型的上下文限制,這代表了質的飛躍。

MXFP4量化技術

透過微縮浮點數格式,GPT-OSS成功將模型權重從16位壓縮至約4位,實現了近4倍的體積縮減。這項技術與MoE架構協同作用,使得消費級硬體部署成為可能。

性能基準測試結果分析

GPT-OSS在多項權威基準測試中展現了卓越表現,部分指標甚至超越了付費API模型。

測試項目 GPT-OSS-120B得分 對標模型 評價
AIME數學 96%+ GPT-4-mini 超越
Codeforces編程 ELO 2622 人類頂尖程序員 領先
MMLU綜合知識 90% GPT-4 持平
ToolBench工具使用 接近GPT-4 GPT-4 接近

這些數據證明,GPT-OSS不僅在理論上具備強大能力,在實際應用中同樣表現出色。

多層次安全防護體系

面對開放權重可能帶來的安全挑戰,OpenAI構建了全方位的防護機制。

預訓練階段安全措施

在模型訓練的最初階段,團隊即對訓練數據進行嚴格篩選,過濾潛在有害內容。這構成了安全防護的第一道防線。

後訓練對齊策略

透過COTRL(思維鏈強化學習)技術,模型學會了兩項關鍵能力:

  • 結構化思維推理:逐步展示思考過程,提高透明度
  • 工具調用能力:擴展模型的實際應用邊界

思維鏈透明性設計

OpenAI做出了一個反直覺但深思熟慮的決定:保持思維鏈(Analysis頻道)的原始狀態,不進行安全淨化。這種設計理念基於一個重要發現:強制壓制模型的思考過程可能導致其學會隱藏真實意圖,反而增加監控難度。

Harmony聊天格式創新

GPT-OSS引入了革命性的Harmony聊天格式,這種結構化設計為複雜AI應用提供了堅實基礎。

功能特性 實現方式 應用價值
角色優先級 系統>用戶>助手 確保安全指令優先執行
頻道分離 Analysis/Final雙頻道 思考過程與輸出清晰分離
推理強度調節 低/中/高三檔 靈活平衡準確性與延遲

部署方案與生態系統

GPT-OSS的部署靈活性為不同規模的用戶提供了多樣化選擇。

本地部署方案

# 使用Transformers庫快速部署
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b")
tokenizer = AutoTokenizer.from_pretrained("openai/cl200k-harmony")

雲端部署選項

平台提供商 服務類型 特色功能
Microsoft Azure 託管服務 企業級安全與合規
AWS SageMaker 端到端ML平台 自動擴展與優化
NVIDIA NeMo 專業加速 GPU優化推理

表現概況:推理、工具使用、健康與數學

官方評測顯示,gpt-oss-120b 在 Codeforces、MMLU、HLE、TauBench 等項目上優於 o3‑mini,且與 o4‑mini 相當或更佳;在 HealthBench 與 AIME 2024/2025 的成績甚至超越 o4‑mini。gpt-oss-20b 雖小,但也能在多數測試逼近或超過 o3‑mini,尤其在競賽數學與健康領域有亮點(註:模型不替代專業醫療)。

授權與合規:Apache 2.0 帶來的自由度

gpt-oss 在 Apache 2.0 之下釋出,意味你可用於商業、再散布與與其他授權軟體整合,與當前多數開放權重生態(如 Qwen、Mistral)一致。模型可在 Hugging Face 免費下載,方便研發與部署流程無縫接軌。

安全與風險控管:開放也要有護欄

開放權重模型的風險輪廓不同於雲端託管版本,因此 OpenAI 額外對 gpt-oss-120b 進行「對抗式微調」測試,並依 Preparedness Framework 檢驗生化、網安與自我提升能力門檻。結果顯示,預設模型未達高能級門檻;就算在強化對抗微調之下,也未達到生化/網安的高能級。這些測試經 Safety Advisory Group 審閱。
換句話說,開發者仍需在自家系統層面加上額外防護(例如輸入/輸出過濾、權限分離、稽核機制),以彌補不像 API 服務那樣可被遠端動態修補的特性。

模型架構與效能優化:為「推理」與「在地部署」而生

gpt-oss 系列採 Transformer + Mixture-of-Experts(MoE)設計,透過少量活躍參數加速推論、降低資源占用;交錯密集與局部帶狀稀疏注意力,並配合群組多重查詢注意力(GQA, group size 8)與 RoPE 位置編碼,原生支援最長 128k context。gpt-oss-120b/20b 的總參數約為 117B/21B,但每個 token 啟動參數分別僅約 5.1B / 3.6B,有利在單卡或 16GB 記憶體環境運行。
Hugging Face 也指出兩款模型皆為 MoE,並提供 4-bit 量化(MXFP4)的路徑以進一步降低推論成本;120b 可放入單張 H100,20b 在 16GB 內流暢,是消費級硬體與 on-device 使用的友軍。

開發與部署生態:從雲到邊緣,一條龍

  • Responses API 相容:若你既有使用 OpenAI API,導入 gpt-oss 的工作流程(特別是 agentic flow、工具使用、結構化輸出)會很直覺。
  • 雲端/在地雙棲:Microsoft 宣布 gpt-oss 可在 Azure AI Foundry 與 Windows AI Foundry 上直接使用,從雲到邊緣支援本地推論與代理開發管線,120b 能在單台企業級 GPU 上跑、20b 可本機跑起來,利於企業把握資料主權與低延遲。
  • Hugging Face 整合:模型與生態工具現成,下載、量化、微調、部署一條龍,有利社群擴散與實戰落地。

什麼團隊該選 gpt-oss?

  • 重視資料主權、離線、低延遲:像醫療、金融、政府單位、工廠邊緣運算,或對隱私合規有高標的企業。
  • 想要高推理與工具使用能力,又需要可客製、可微調:例如內嵌企業知識庫的智慧代理、流程自動化機器人、具瀏覽/執行碼能力的內部助理。
  • 研發團隊想快速實驗與本地反覆迭代:選 gpt-oss-20b,16GB 記憶體門檻超親民。

快速比較:核心要點一覽

面向 gpt-oss-120b gpt-oss-20b
目標定位 逼近 o4-mini 的推理表現,單卡 80GB 即可 接近 o3-mini 的常見基準,16GB 在地可跑
架構 Transformer + MoE,稀疏注意力 + GQA + RoPE,128k context 同左
CoT/工具/代理 CoT、工具使用、結構化輸出、reasoning_effort 調整 同左
下載授權 Apache 2.0(商用、再散布、整合友善) Apache 2.0
典型場景 企業級本地推理、進階代理、需要更高推理的應用 邊緣/裝置端、本地開發迭代、成本敏感場景

(以上歸納自 OpenAI 介紹、模型卡與第三方報導)

上手建議:實作時別忘了這些細節

  1. 決定在地 vs 雲端
    先看你的資料主權、延遲、成本與維運能力。雲端 + 開放權重混合(例如雲端檢索、在地推理)常是務實解。
  2. 選型與資源規劃
    要高推理就 120b;要輕量就 20b。可考慮 4-bit 量化降低 GPU/記憶體壓力,並評估 context 長度與工具使用的資源消耗。
  3. 安全治理與合規
    在系統層加上輸入/輸出過濾、操作審計、模型權限與工具沙箱化,特別是當模型可執行程式碼或觸達網路資源時。
  4. 產品化與可觀測性
    建立評測集(推理、工具調用成功率、延遲、成本),持續 A/B 與紅隊測試,用以指導微調與推理強度設定。
  5. 生態整合
    若你用 Responses API 或 Azure/Windows AI Foundry、生態工具如 Hugging Face,導入與運維會更順手。

一句話總結

gpt-oss 把「強推理 + 開放權重 + 實用部署」打包帶來,既能在單卡或 16GB 裝置上跑,也能融入企業級代理工作流;只要你補齊系統層安全控管,它就是把私域 AI 做深做穩的理想基底。

目前 Ollama 已經有模型可以下載使用: gpt-oss:120b

延伸閱讀



作者:Rae
個人觀點:我最看好的,是 gpt-oss-20b 在 16GB 就能本地跑起來——這讓「把資料留在公司裡」不再是奢望。像我使用的是 Macbook Pro M4 Max - 128g 則可以運行 120B 的版本,實測竟然可以接近 o4-mini 的水準,能夠在地端跑 o4-mini 實在是太酷了

Share this post
Rae Yu

Develops comprehensive content plans that align with business goals and resonate with target audiences. Content is the reason search began in the first place.

Loading...