OpenAI重新开源，深夜连发两个推理模型，o4-mini水平，笔记本、手机可跑

文章来源：08ai导航网发布时间：2025-08-06 16:58:13

终于，OpenAI的新发布还是来了。

虽然不是我们期待已久的GPT-5，但也是「somethingbig-but-smalltoday.」

也就是开源新语言模型。

要知道，这是近几年来（自GPT-2以来），OpenAI重新开源模型。

据在OpenAI任职研究科学家的清华校友翁家翌透露，从2022年OpenAI内部就讨论模型开源，并曾数次接近「开源」目的，但直到今天才实现。

这次还一下开源了两个，都是推理模型。

GitHub地址：https://github.com/openai/gpt-osshuggingface地址：https://huggingface.co/openai/gpt-oss-20bhuggingface地址：https://huggingface.co/openai/gpt-oss-120b博客地址：https://openai.com/index/introducing-gpt-oss/

SamAltman声称，gpt-oss性能与o4-mini水平相当，并且可以在高端笔记本电脑上运行（WTF！！）（还有一个较小的可以在手机上运行）。

两款开源模型与o3、o4-mini的跑分结果比较如下：

总结一波，这两个开源模型的亮点包括：

宽松的Apache2.0许可证：自由构建，不受版权限制或专利风险-非常适合实验、定制和商业部署。

可调整的推理力度：根据具体用例和延迟需求轻松调整推理力度（低、中、高）。

完整的思维链（CoT）：完全可访问模型的推理过程，从而更轻松地进行调试并增强对输出的信任。不计划向终端用户展示。

可微调：通过参数微调，完全可根据特定用例定制模型。

Agentic功能：使用模型的功能进行函数调用、网页浏览、Python代码执行和结构化输出。

原生MXFP4量化：模型使用原生MXFP4精度针对MoE层进行训练，使得gpt-oss-120b可在单个H100GPU上运行，gpt-oss-20b模型可在16GB内存内运行。

OpenAI还做了一个playground，让开发者可以在网页端简单尝试这两个开源模型，感兴趣的读者可以去体验尝试。

试用地址：https://www.gpt-oss.com/

在过去的几个小时，海外AI社区已经炸开了，纷纷开始下载尝试新模型，以至于HuggingFace的CTO只能在线请求大家不要全都去下载，服务器要崩了！

接下来，就让我看看下这两个最新开源模型的技术细节。

开源模型新高度

作为两个SOTA级别的开源语言模型，gpt-oss-120b和gpt-oss-20b可以提供强大的实际应用性能，并具有低成本优势。

两款模型在推理任务上超越了同等规模的开源模型，展示了强大的工具使用能力，并且经过优化，能够高效部署在消费级硬件上。训练过程中结合了强化学习以及受OpenAI内部最先进模型启发的技术，包括o3和其他前沿模型。

其中，gpt-oss-120b模型在核心推理基准测试上与o4-mini几乎持平，同时能够在单个80GBGPU上高效运行。gpt-oss-20b模型在常见基准测试中表现与o3-mini相似，且仅需16GB内存即可运行，适用于边缘设备，非常适合本地推理、设备端使用或在没有高昂基础设施的情况下快速迭代。

两款模型在工具使用、few-shot函数调用、CoT推理以及HealthBench测试中表现非常出色，甚至超越了o1和GPT-4o等专有模型。

两款模型还具有非常强的系统兼容性，适用于需要卓越指令跟随、工具使用（如网页搜索或Python代码执行）和推理能力的智能体工作流中，并且能够根据任务的复杂性来调整推理力度，从而适应不需要复杂推理和/或针对非常低延迟最终输出的任务。两款模型完全可定制，提供完整的CoT，并支持结构化输出。

当然，安全性是OpenAI发布所有模型的基础，尤其对开源模型至关重要。因此，除了全面的安全训练和评估测试外，OpenAI还基于自身的准备框架（PreparednessFramework）测试了gpt-oss-120b的对抗性微调版本，引入了额外的评估层。从结果来看，gpt-oss模型在内部安全基准测试中的表现与OpenAI的前沿模型相当，并提供与其近期专有模型相同的安全标准。

OpenAI已经与AISweden、Orange和Snowflake等早期合作伙伴合作，了解两款开源模型在现实应用中的情况，包括将它们托管在本地以确保数据安全，以及在专业数据集上进行微调。

预训练与模型架构

gpt-oss模型采用了OpenAI最先进的预训练和后训练技术，尤其关注推理、效率和在各种部署环境中的现实可用性。

两款模型均采用Transformer架构，并利用专家混合（MoE）来减少处理输入所需的活跃参数数量。其中，gpt-oss-120b每个token激活5.1B参数，而gpt-oss-20b则激活3.6B参数。两款模型的总参数分别为117B和21B。

此外，两款模型采用交替密集和局部带状稀疏注意力模式，类似于GPT-3。为了提高推理和内存效率，模型还使用了分组多查询注意力，组大小为8。同时利用旋转位置编码（RoPE）进行位置编码，并原生支持最长128k的上下文长度。

在训练集上，OpenAI在一个主要是英文的文本数据集上训练了两款模型，重点关注STEM、编程和常识类内容，并使用一个比o4-mini和GPT‑4o所使用更为广泛的分词器（tokenizer）对数据进行分词——o200k_harmony，同样也将其开源。

后训练

OpenAI声称开源模型采用了与o4-mini相似的后训练流程，包含监督微调和高计算强化学习阶段。此外，OpenAI还训练模型在输出答案前先进行思维链推理和工具调用。通过采用与OpenAI专有推理模型相同的技术，这些模型在后训练后展现出卓越的能力。

与API中的OpenAIo系列推理模型类似，这两款开源模型支持「低、中、高」三档推理强度调节，开发者只需在系统消息中添加一行指令即可轻松设置，实现延迟与性能的平衡。

性能评估

OpenAI在标准学术基准上对比测试了GPT-OSS-120B/20B与o3、o3-mini及o4-mini等OpenAI推理模型，涵盖编程、竞赛数学、医疗和智能体工具使用等维度：

一系列测试结果表明，GPT-OSS-120B在编程竞赛（Codeforces）、综合问题解答（MMLU和HLE）及工具调用（TauBench）方面超越o3-mini，达到甚至超过o4-mini水平。

在医疗查询（HealthBench）和竞赛数学（AIME2024&2025）领域表现更优于O4-mini。尽管体积小巧，GPT-OSS-20B在这些测试中仍与o3-mini持平甚至超越，尤其在竞赛数学和医疗领域表现更为突出。

CodeforcesCompetition编程基准

人类最后考试——跨学科的专家级问题

HealthBench基准测试

AIME2024和AIME2025基准（使用工具）

GPQADiamond（不使用工具）和MMLU基准

AIME数学竞赛

GPQADiamond（使用工具）博士级别科学问题

完整评估结果如下表所示：

思维链

OpenAI近期的研究表明，只要模型未经过直接监督对齐其思维链，监控推理模型的思维链过程有助于检测异常行为。这一观点也得到业内其他研究者的认同。

因此在GPT-OSS系列模型的训练中未对思维链施加任何直接监督。

OpenAI认为，这对于监测模型异常行为、欺骗性输出及滥用风险至关重要。通过发布具备无监督思维链能力的开源模型，希望为开发者和研究人员提供研究及实现自有思维链监控系统的机会。

更多的模型细节和评估结果请参考模型卡（modelcard）：

模型卡地址：https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

最后，在GPT-5迟迟未发布的情况下，你觉得OpenAI能否凭这两个开源模型挽尊呢？与国内开源模型比谁更香？欢迎已经用上的读者们讨论。

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：关注大模型的，经授权发布。

上一篇: 奥特曼深夜官宣：OpenAI重回开源，两大推理模型追平o4-mini，号称世界最强

OpenAI，OpenAI了