OpenAI 最新釋出的 gpt-oss,是一組「開放權重」的推理導向語言模型,包含 gpt-oss-120b 與 gpt-oss-20b。它們主打強推理、強工具使用能力、可在消費級硬體高效部署,並以 Apache 2.0 授權提供商用與再散布的彈性。
和傳統的「開源程式碼」不同,開放權重(open-weight)的重點是公開模型權重與使用條款,讓你能下載、在本地執行、微調與整合到自家系統,不必連網或經過雲端 API。這對重視資料隱私與低延遲的團隊很關鍵。
兩個型號:gpt-oss-120b vs gpt-oss-20b(怎麼選)
- gpt-oss-120b:在核心推理基準上逼近 OpenAI o4-mini,且能在單張 80 GB GPU 上高效運行,適合需要更高推理能力、仍想保有自主管理與可微調性的團隊。
- gpt-oss-20b:在常見基準上接近 o3-mini,僅需約 16 GB 記憶體即可在邊緣裝置或一般高規個人電腦上跑,是裝置端應用、本地推論與快速迭代的甜蜜點。
兩者都支援鏈式思考(CoT)、少量示範函式呼叫、結構化輸出、可調整 reasoning_effort(低/中/高)來在延遲與品質間取捨,並原生設計於 agentic workflow(可搜尋網路、執行 Python、呼叫工具)中表現出色。


gpt-oss-120b 與 gpt-oss-20b 模型
gpt-oss-120b 模型在核心推理基準測試中的表現與 OpenAI o4-mini 幾乎持平,且僅需單塊 80 GB GPU 即可高效運行。 gpt-oss-20b 模型在常見基準測試中的結果與 OpenAI o3-mini 相似,並且可在僅配備 16 GB 內存的邊緣設備上運行,使其成為設備端用例、本地推理或快速迭代的理想選擇,無需昂貴的基礎設施。這兩個模型在工具使用、小樣本函數呼叫、CoT 推理(從 Tau-Bench 代理評估套件的結果可以看出)和 HealthBench 方面也表現出色(甚至超越了 OpenAI o1 和 GPT-4o 等專有模型)
預訓練和模型架構
GPT-OSS 模型採用了OpenAI最先進的預訓練和後訓練技術進行訓練,尤其註重推理能力、效率以及在各種部署環境中的實際可用性。雖然我們已經開放了其他模型,包括 Whisper 和 CLIP ,但 GPT-OSS 模型是我們自 GPT-2 以來首次開放權重的語言模型。
每個模型都是一個 Transformer,它利用混合專家 (MoE ) 來減少處理輸入所需的活動參數數量。 gpt-oss-120b 每個 token 活化 51 億個參數,而 gpt-oss-20b 活化 36 億個參數。這兩個模型分別有 117 億和 21 億個總參數。這些模型使用交替的密集和局部帶狀稀疏注意模式,類似於 GPT-3 。為了提高推理和記憶體效率,這些模型還使用了分組多查詢注意模式,每個組的大小為 8。我們使用旋轉位置嵌入 (RoPE ) 進行位置編碼,並且原生支援高達 128k 的上下文長度。
GPT-OSS模型架構與規格詳解
GPT-OSS系列包含兩個不同規模的模型版本,各自針對特定應用場景進行優化。這兩款模型都採用Apache 2.0授權協議,確保了商業應用的最大彈性。
| 模型版本 | 參數量 | 專家數量 | 激活專家數 | 硬體需求 | 應用場景 |
|---|---|---|---|---|---|
| GPT-OSS-120B | 1200億 | 128位 | 4位 | H100等專業GPU | 企業級複雜推理任務 |
| GPT-OSS-20B | 200億 | 32位 | 4位 | 16GB記憶體設備 | 邊緣計算與即時應用 |
GPT-OSS的核心創新在於其混合專家(MoE)架構設計。這種架構運作原理類似於專業顧問團隊,透過智慧門控網路選擇最適合當前任務的專家組合,實現了計算效率與模型能力的最佳平衡。
開放權重的革命性意義
開放權重與傳統開源概念存在本質差異。傳統開源僅提供程式碼框架,而GPT-OSS則釋出了經過海量數據訓練的完整模型權重,這相當於直接提供了AI的"思維能力"。
開放權重帶來的三大核心優勢:
| 優勢類別 | 具體內容 | 商業價值 |
|---|---|---|
| 成本控制 | 自主部署vs按量付費 | 大規模應用成本降低70%以上 |
| 數據主權 | 完全本地化運行 | 符合金融醫療等行業合規要求 |
| 深度訂製 | 私有數據微調 | 打造專屬行業AI解決方案 |
技術創新的多層次突破
GPT-OSS在多個技術維度實現了重要突破,這些創新共同構成了其卓越性能的基礎。
注意力機制優化
模型採用混合注意力策略,交替運用窗口注意力和密集注意力兩種模式。窗口注意力專注於局部上下文,提供高效計算;密集注意力則捕捉長距離依賴關係,確保全局理解能力。這種設計配合GQA(分組查詢注意力)和RoPE位置編碼,在保持高性能的同時大幅降低了計算資源需求。
超長上下文處理能力
GPT-OSS原生支援高達128K token的上下文長度,這項能力對於處理大型文檔、複雜程式碼庫分析和長篇學術論文解讀具有決定性意義。相較於傳統模型的上下文限制,這代表了質的飛躍。
MXFP4量化技術
透過微縮浮點數格式,GPT-OSS成功將模型權重從16位壓縮至約4位,實現了近4倍的體積縮減。這項技術與MoE架構協同作用,使得消費級硬體部署成為可能。
性能基準測試結果分析
GPT-OSS在多項權威基準測試中展現了卓越表現,部分指標甚至超越了付費API模型。
| 測試項目 | GPT-OSS-120B得分 | 對標模型 | 評價 |
|---|---|---|---|
| AIME數學 | 96%+ | GPT-4-mini | 超越 |
| Codeforces編程 | ELO 2622 | 人類頂尖程序員 | 領先 |
| MMLU綜合知識 | 90% | GPT-4 | 持平 |
| ToolBench工具使用 | 接近GPT-4 | GPT-4 | 接近 |
這些數據證明,GPT-OSS不僅在理論上具備強大能力,在實際應用中同樣表現出色。
多層次安全防護體系
面對開放權重可能帶來的安全挑戰,OpenAI構建了全方位的防護機制。
預訓練階段安全措施
在模型訓練的最初階段,團隊即對訓練數據進行嚴格篩選,過濾潛在有害內容。這構成了安全防護的第一道防線。
後訓練對齊策略
透過COTRL(思維鏈強化學習)技術,模型學會了兩項關鍵能力:
- 結構化思維推理:逐步展示思考過程,提高透明度
- 工具調用能力:擴展模型的實際應用邊界
思維鏈透明性設計
OpenAI做出了一個反直覺但深思熟慮的決定:保持思維鏈(Analysis頻道)的原始狀態,不進行安全淨化。這種設計理念基於一個重要發現:強制壓制模型的思考過程可能導致其學會隱藏真實意圖,反而增加監控難度。
Harmony聊天格式創新
GPT-OSS引入了革命性的Harmony聊天格式,這種結構化設計為複雜AI應用提供了堅實基礎。
| 功能特性 | 實現方式 | 應用價值 |
|---|---|---|
| 角色優先級 | 系統>用戶>助手 | 確保安全指令優先執行 |
| 頻道分離 | Analysis/Final雙頻道 | 思考過程與輸出清晰分離 |
| 推理強度調節 | 低/中/高三檔 | 靈活平衡準確性與延遲 |
部署方案與生態系統
GPT-OSS的部署靈活性為不同規模的用戶提供了多樣化選擇。
本地部署方案
# 使用Transformers庫快速部署
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b")
tokenizer = AutoTokenizer.from_pretrained("openai/cl200k-harmony")
雲端部署選項
| 平台提供商 | 服務類型 | 特色功能 |
|---|---|---|
| Microsoft Azure | 託管服務 | 企業級安全與合規 |
| AWS SageMaker | 端到端ML平台 | 自動擴展與優化 |
| NVIDIA NeMo | 專業加速 | GPU優化推理 |
表現概況:推理、工具使用、健康與數學
官方評測顯示,gpt-oss-120b 在 Codeforces、MMLU、HLE、TauBench 等項目上優於 o3‑mini,且與 o4‑mini 相當或更佳;在 HealthBench 與 AIME 2024/2025 的成績甚至超越 o4‑mini。gpt-oss-20b 雖小,但也能在多數測試逼近或超過 o3‑mini,尤其在競賽數學與健康領域有亮點(註:模型不替代專業醫療)。
授權與合規:Apache 2.0 帶來的自由度
gpt-oss 在 Apache 2.0 之下釋出,意味你可用於商業、再散布與與其他授權軟體整合,與當前多數開放權重生態(如 Qwen、Mistral)一致。模型可在 Hugging Face 免費下載,方便研發與部署流程無縫接軌。
安全與風險控管:開放也要有護欄
開放權重模型的風險輪廓不同於雲端託管版本,因此 OpenAI 額外對 gpt-oss-120b 進行「對抗式微調」測試,並依 Preparedness Framework 檢驗生化、網安與自我提升能力門檻。結果顯示,預設模型未達高能級門檻;就算在強化對抗微調之下,也未達到生化/網安的高能級。這些測試經 Safety Advisory Group 審閱。
換句話說,開發者仍需在自家系統層面加上額外防護(例如輸入/輸出過濾、權限分離、稽核機制),以彌補不像 API 服務那樣可被遠端動態修補的特性。
模型架構與效能優化:為「推理」與「在地部署」而生
gpt-oss 系列採 Transformer + Mixture-of-Experts(MoE)設計,透過少量活躍參數加速推論、降低資源占用;交錯密集與局部帶狀稀疏注意力,並配合群組多重查詢注意力(GQA, group size 8)與 RoPE 位置編碼,原生支援最長 128k context。gpt-oss-120b/20b 的總參數約為 117B/21B,但每個 token 啟動參數分別僅約 5.1B / 3.6B,有利在單卡或 16GB 記憶體環境運行。
Hugging Face 也指出兩款模型皆為 MoE,並提供 4-bit 量化(MXFP4)的路徑以進一步降低推論成本;120b 可放入單張 H100,20b 在 16GB 內流暢,是消費級硬體與 on-device 使用的友軍。
開發與部署生態:從雲到邊緣,一條龍
- Responses API 相容:若你既有使用 OpenAI API,導入 gpt-oss 的工作流程(特別是 agentic flow、工具使用、結構化輸出)會很直覺。
- 雲端/在地雙棲:Microsoft 宣布 gpt-oss 可在 Azure AI Foundry 與 Windows AI Foundry 上直接使用,從雲到邊緣支援本地推論與代理開發管線,120b 能在單台企業級 GPU 上跑、20b 可本機跑起來,利於企業把握資料主權與低延遲。
- Hugging Face 整合:模型與生態工具現成,下載、量化、微調、部署一條龍,有利社群擴散與實戰落地。
什麼團隊該選 gpt-oss?
- 重視資料主權、離線、低延遲:像醫療、金融、政府單位、工廠邊緣運算,或對隱私合規有高標的企業。
- 想要高推理與工具使用能力,又需要可客製、可微調:例如內嵌企業知識庫的智慧代理、流程自動化機器人、具瀏覽/執行碼能力的內部助理。
- 研發團隊想快速實驗與本地反覆迭代:選 gpt-oss-20b,16GB 記憶體門檻超親民。
快速比較:核心要點一覽
| 面向 | gpt-oss-120b | gpt-oss-20b |
|---|---|---|
| 目標定位 | 逼近 o4-mini 的推理表現,單卡 80GB 即可 | 接近 o3-mini 的常見基準,16GB 在地可跑 |
| 架構 | Transformer + MoE,稀疏注意力 + GQA + RoPE,128k context | 同左 |
| CoT/工具/代理 | CoT、工具使用、結構化輸出、reasoning_effort 調整 | 同左 |
| 下載授權 | Apache 2.0(商用、再散布、整合友善) | Apache 2.0 |
| 典型場景 | 企業級本地推理、進階代理、需要更高推理的應用 | 邊緣/裝置端、本地開發迭代、成本敏感場景 |
(以上歸納自 OpenAI 介紹、模型卡與第三方報導)
上手建議:實作時別忘了這些細節
- 決定在地 vs 雲端
先看你的資料主權、延遲、成本與維運能力。雲端 + 開放權重混合(例如雲端檢索、在地推理)常是務實解。 - 選型與資源規劃
要高推理就 120b;要輕量就 20b。可考慮 4-bit 量化降低 GPU/記憶體壓力,並評估 context 長度與工具使用的資源消耗。 - 安全治理與合規
在系統層加上輸入/輸出過濾、操作審計、模型權限與工具沙箱化,特別是當模型可執行程式碼或觸達網路資源時。 - 產品化與可觀測性
建立評測集(推理、工具調用成功率、延遲、成本),持續 A/B 與紅隊測試,用以指導微調與推理強度設定。 - 生態整合
若你用 Responses API 或 Azure/Windows AI Foundry、生態工具如 Hugging Face,導入與運維會更順手。
一句話總結
gpt-oss 把「強推理 + 開放權重 + 實用部署」打包帶來,既能在單卡或 16GB 裝置上跑,也能融入企業級代理工作流;只要你補齊系統層安全控管,它就是把私域 AI 做深做穩的理想基底。

延伸閱讀
- Stanford HAI — Policy & Safety resources: https://hai.stanford.edu
- MIT CSAIL — Research on trustworthy AI: https://www.csail.mit.edu
- Harvard Berkman Klein Center — Ethics and Governance of AI: https://cyber.harvard.edu
- gpt‑oss‑120B、gpt‑oss‑20B、DeepSeek R1、Kimi K2 關鍵差異 - topics - Tenten AI
- gpt‑oss‑120B 在不同硬體上的速度對比:AMD Ryzen AI Max+ 395、MacBook Pro M4 Max 128GB、NVIDIA H100 - topics - Tenten AI
- 為什麼在本地 MacBook Pro M4 Max(128GB)跑 gpt‑oss‑120B 會覺得慢? - topics - Tenten AI
- 如何在 MacBook Pro M4 Max 128GB 上運行 GLM 4.5-AIR 模型 - topics - Tenten AI
- The most economical ways to run gpt‑oss‑120B
- Why GPT-OSS‑120B Feels Slow on a MacBook Pro M4 Max (128GB)
- OpenAI's Latest gpt-oss Open Source Model: Everything You Need to Know
作者:Rae
個人觀點:我最看好的,是 gpt-oss-20b 在 16GB 就能本地跑起來——這讓「把資料留在公司裡」不再是奢望。像我使用的是 Macbook Pro M4 Max - 128g 則可以運行 120B 的版本,實測竟然可以接近 o4-mini 的水準,能夠在地端跑 o4-mini 實在是太酷了
