OpenAI时隔6年再度开源，两款推理模型，o4-mini级，手机和笔记本能跑

文章来源：08ai导航网发布时间：2025-08-06 17:11:09

时隔6年，OpenAI再次开源语言模型！

8月6日报道，今天，OpenAI终于放出其传闻已久的开源模型：gpt-oss-120b和gpt-oss-20b。这两款模型均采用MoE架构，与DeepSeek的多款模型类似。

本次OpenAI开源的模型最大亮点之一是其部署的高效性。gpt-oss-120b能够在单个80GBGPU上高效运行，gpt-oss-20b只需16GB内存即可在边缘设备上运行，可为端侧AI提供本地模型选择。两款模型均采用MXFP4原生量化，其中，gpt-oss-120b在H100GPU上历经210万卡时训练而成，20b版本的训练用量为前者的1/10。

在多项基准测试中，gpt-oss-120b的表现与OpenAIo4-mini几乎持平，gpt-oss-20b则与OpenAIo3-mini相似。工具使用、小样本函数调用也是其强项之一。

面向Agent场景，这两款模型已经与OpenAI的ResponsesAPI兼容，可用于Agent工作流，具备较好的指令遵循能力、网页搜索或Python代码执行等工具使用能力以及推理能力，还支持调整模型推理长度。

自2019年的GPT-2以来，OpenAI已经长期未开源语言模型，但曾经开源Whisper语音模型等项目。

OpenAI语言模型再度开源的消息发布后，虽有不少网友发文庆祝，但也有人质疑其开源程度并不彻底，强化学习的技术细节、预训练的数据构成、数据来源等信息都未披露，让开源社区难以从中借鉴。

同时，OpenAI在所有已公布基准测试中，都未将gpt-oss系列与DeepSeek、Qwen、Kimi等开源模型进行比较，也没有和Claude、Grok、Gemini等闭源竞争对手打擂台。

目前，已有至少14家部署平台支持了OpenAI的最新开源模型，包括Azure、HuggingFace、vLLM、Ollama、llama.cpp、LMStudio、AWS、Fireworks、TogetherAI、Baseten、Databricks、Vercel、Cloudflare和OpenRouter等。

在硬件方面，英伟达、AMD、Cerebras和Groq等至少4家企业宣布了对gpt-oss系列的支持，Cerebras更是将gpt-oss-120b的推理速度拉到了每秒超3000tokens，创下OpenAI模型的最快纪录。

目前，gpt-oss-120b和gpt-oss-20b已上线开源托管平台HuggingFace，普通用户则可以在OpenAI打造的体验网站中直接免费使用。

开源地址：

https://huggingface.co/openai/gpt-oss-120b

https://huggingface.co/openai/gpt-oss-20b

体验链接：

https://gpt-oss.com/

01.推理速度成核心亮点，网友质疑没和DeepSeek、Qwen对比

OpenAI开源后，已有不少网友体验上了这两款模型，也进行了一手体验。

有许多网友都表达了一个直观感受——太快了！

据一手体验，这款模型在思考一般性问题时，仅会进行5秒左右的思考，并迅速输出结果。

同样的问题交由其他推理模型，思考过程耗时18秒。

在编程场景，gpt-oss-120b展现出一定规划能力，会在项目开始前给出结构预览和关键技术点。

其开发的2048小游戏运行正常，UI选用了较为简洁的风格。

让gpt-oss-120b挑战了一下Claude擅长的SVG图绘制，并给予gpt-oss-120b高推理预算，其生成结果如下，略显简陋。

OpenAICEOSamAltman称，gpt-oss-120b可以在高端笔记本上运行，而小尺寸的20b版本能在手机上运行。

不过，AI创企PrivateLLM的创始人ThilakRao认为，目前，还没有任何手机能运行20b的AI模型，即便是经过4位量化。

有网友晒出了本地部署效果。20b版本的gpt-oss可以直接本地部署，无需经过量化，能在在搭载M3Pro芯片的Mac上，实现接近24tokens每秒的高速本地部署体验。gpt-oss-20b开发出了一个贪吃蛇游戏，一次就成功了。

不过，也有网友吐槽，OpenAI的此次“开源”并不彻底。权重是公开的，但训练过程不公开，数据源也不公开，强化学习方法也不公开，可以下载模型，但无法复现。

OpenAI也没有晒出gpt-oss系列与其他开源、闭源模型的任何基准测试比较，有网友在评论区询问，gpt-oss系列与DeepSeekR1、KimiK2和Qwen相比究竟如何？

02.主打推理、高效率，120b版本性能比肩o4-mini

在博客中，OpenAI介绍了这一模型的部分技术细节。本次的gpt-oss系列注重推理能力、效率以及在各种部署环境中的实际可用性。

采用MoE架构就是实现这一目标的手段之一。gpt-oss-120b每个token激活51亿个参数，而gpt-oss-20b激活36亿个参数。这两个模型分别有1170亿和210亿个总参数。这些模型使用交替的密集和局部带状稀疏注意模式，类似于GPT-3。

为了提高推理和内存效率，gpt-oss系列模型还使用了分组多查询注意力模式，每个组的大小为8。使用旋转位置嵌入（RoPE）进行位置编码，并且原生支持高达128k的上下文长度。

数据方面，gpt-oss使用了一个以英文为主的纯文本数据集，数据集的重点是STEM（科学、技术、工程、数学）、编程以及常识。OpenAI还同步开源了其使用的分词器（tokenizer）。

gpt-oss的后训练过程与o4-mini类似，包括监督微调阶段（SFT）和使用大量算力的强化学习阶段（RL）。

与API中的OpenAIO系列推理模型类似，这两款开源模型支持低、中、高三种推理强度，在延迟和性能之间进行权衡。开发者只需在系统消息中输入一句话，即可设置推理强度。

基准测试中，gpt-oss-120b在竞赛级别编程（Codeforces）、通用问题求解（MMLU和HLE）以及工具调用（TauBench）方面均优于OpenAIo3-mini，并比肩甚至超越了OpenAIo4-mini。

此外，它在健康相关查询（HealthBench）和竞赛数学（AIME2024和2025）方面的表现甚至优于o4-mini。

尽管规模较小，gpt-oss-20b在同样的评估中也比肩甚至超越了OpenAIo3-mini，甚至在竞赛数学和健康方面也胜过后者。

OpenAI称，gpt-oss系列采用无监督思维链，让开发者和研究人员有机会研究和实现他们自己的思维链监控系统。但OpenAI也建议，开发者不应在其应用程序中直接向用户展示思维链。它们可能包含令人产生幻觉或有害的内容。

03.多家芯片厂商即刻适配，最高实现每秒3000tokens推理

gpt-oss-120b和gpt-oss-20b采用了宽松的Apache2.0许可证。开源后，已有不少GPU、AI芯片厂商和云服务厂商即刻宣布适配。

英伟达官方发推称，gpt-oss模型面向英伟达的全栈架构进行优化，并在Blackwell和RTXGPU上实现了最佳的推理效果。

AMD也宣布支持OpenAI开源模型在AMD的AI芯片与消费级处理器上使用。

AI芯片创企则争相晒出自家的每秒token数。在Groq的芯片上，gpt-oss的推理速度最高可达1200tokens每秒。

Cerebras则称该公司创造了新的速度记录，gpt-oss-120b版本的推理速度达3000tokens每秒，成为史上最快的OpenAI模型。

04.结语：OpenAI再度开源，开源社区能从中获益吗？

今年以来，由中国大模型厂商们掀起的开源浪潮席卷全球。作为全球头部模型厂商，OpenAI本次时隔6年再度开源语言模型，对OpenAI和产业而言意义重大。

OpenAI在过去很长一段时间里都因“名不副实”而保受诟病，本次放出两款开源模型，可视为对这一质疑的回应。从实际体验来看，OpenAI的两款模型都主打轻量化部署，并已经与云厂商、芯片厂商展开深度合作，或将促使更多企业和开发者使用这一模型。

不过，OpenAI的开源并不彻底，对技术细节的保留导致开源社区暂时无法从中获取有益的参考。这一模型对开源社区的价值，仍有待观察。

本文来自微信公众号“”（ID：zhidxcom），作者：陈骏达，编辑：李水青，经授权发布。

上一篇: 震撼，世界模型第一次超真实地模拟了真实世界：谷歌Genie 3昨晚抢了OpenAI风头

支持每秒24帧、720p分辨率的实时交互。