Claude 小升级就赢了OpenAI 9年“开源神作”？高强度推理直接歇菜、幻觉率高达50%，写作还被Kimi 2吊锤？

文章来源：08ai导航网发布时间：2025-08-06 17:14:01

刚刚，OpenAI发布了首个开源语言模型系列gpt-oss，包括gpt-oss-120b和gpt-oss-20b两款语言模型：完全可定制，提供完整的思维链（CoT）并支持结构化输出。

现在，gpt-oss-120b和gpt-oss-20b的权重均可在HuggingFace上免费下载，且它们原生采用MXFP4量化格式。这使得gpt-oss-120B模型可在80GB内存内运行，而gpt-oss-20b仅需16GB内存。

下载链接：https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4

Github地址：https://github.com/openai/gpt-oss

值得一提的是，几乎与gpt-oss开源同时，谷歌Deepmind宣布推出Genie3，Anthropic放出了ClaudeOpus4.1。有网友感叹，“我们生活在什么样的时代。”马斯克也转发了这条帖子，并配了意味深长的词和表情。

ClaudeOpus4.1的最大亮点在于编程性能提升。在SWE-benchVerified编程评测中，其表现高达74.5%。GitHub上的开发者们普遍认为Opus4.1在多文件代码重构等任务上表现优于其前代。此外，新模型的无害回复率也从上代97.27%提升到了98.76%。

有用户第一时间将ClaudeOpus4.1与OpenAI的gpt-oss进行了编码能力方面的对比，实测结果是ClaudeOpus4.1最强且“出乎意料地稳”。此外，其提到，gpt-oss-120b用起来要谨慎，写代码特别不稳定；gpt-oss-20b反而效果挺好。

训练过程全公开，

采用技术对齐先进推理模型

据悉，gpt-oss模型系列的训练结合了强化学习以及借鉴OpenAI最先进内部模型（包括o3和其他前沿系统）的技术，能以低成本实现强大的实际性能。

“gpt-oss模型采用我们最先进的预训练和后训练技术进行训练，特别注重推理能力、效率以及在各种部署环境中的实际可用性。”

OpenAI指出，每个模型都是一个Transformer，利用混合专家（MoE[2]）来减少处理输入所需的活跃参数数量。gpt-oss-120b每个令牌激活51亿个参数，而gpt-oss-20b每个令牌激活36亿个参数，两款模型分别拥有1170亿和210亿个总参数。

这些模型采用交替的密集型和局部带状稀疏注意力模式，类似于GPT-3。为提高推理和内存效率，这些模型还使用分组多查询注意力，组大小为8。其使用旋转位置嵌入（RoPE[4]）进行位置编码，原生支持长达128k的上下文长度。

两款模型的后训练过程与o4-mini类似，包括有监督微调阶段和高计算量的强化学习阶段。OpenAI表示，其目标是使模型与OpenAI模型规范对齐，并训练其在生成答案前应用思维链推理和工具使用能力。“通过采用与我们最先进的专有推理模型相同的技术，这些模型在后训练后展现出卓越的能力。”

与API中的OpenAIo系列推理模型类似，这两款开源模型支持低、中、高三种推理力度，可在延迟和性能之间进行权衡，开发者只需在系统消息中用一句话即可设置推理强度。

此外，OpenAI在以英语为主的纯文本数据集上训练这些模型，重点涵盖STEM、编程和通用知识领域。使用的分词器是用于OpenAIo4-mini和GPT-4o的分词器的超集——o200k_harmony，目前该分词器也同步开源了。

据介绍，这些模型基于灵活的Apache2.0许可证发布，在推理任务上的表现优于同规模的开源模型，展现出强大的工具使用能力，并且经过优化，可在消费级硬件上高效部署。

其中，gpt-oss-120b模型在核心推理基准测试上的表现接近OpenAIo4-mini，同时能在单块80GBGPU上高效运行。gpt-oss-20b模型在常见基准测试中的结果与OpenAIo3-mini相近，且仅需16GB内存就能在边缘设备上运行，非常适合设备端使用场景、本地推理或无需昂贵基础设施的快速迭代。

在工具使用、少样本函数调用、思维链推理（从Tau-Bench智能体评估套件的结果中可看出）和HealthBench方面，这两款模型也表现出色，甚至超过了OpenAIo1和GPT-4o等专有模型。

OpenAI称，两款开源模型与其响应API兼容，可设计用于智能体工作流，具有出色的指令遵循能力、工具使用能力（如网页搜索或Python代码执行）和推理能力，还能够为不需要复杂推理或以极低延迟的最终输出为目标的任务调整推理强度。

得分不如DeepSeekR1，

实测效果槽点多多？

此前OpenAI已经公开了包括Whisper和CLIP在内的其他模型，但gpt-oss模型是自GPT-2以来其推出的首批开源语言模型。

吴恩达第一时间评价道，“从我的快速测试来看，gpt-oss-120b看起来非常强大。”还有网友表示，“这可能是OpenAI第一次不辜负它的名字。”

不过，ArtificialAnalysis发布的测试结果是：“对OpenAI的gpt-oss模型的独立基准测试显示，gpt-oss-120b是美国最智能的开源模型，其智能水平虽落后于DeepSeekR1和Qwen3235B，但在效率方面具有优势。”

具体来说，尽管gpt-oss-120b在得分上未能超过DeepSeekR10528的59分和Qwen3235B2507的64分，但其总参数和活跃参数数量均远小于这两款模型。DeepSeekR1的总参数为6710亿，活跃参数为370亿，且原生以FP8精度发布，这使其总文件大小（及内存需求）是gpt-oss-120b的10倍以上。

还有网友指出，“经过九年的研发，OpenAI发布了一款性能不及xAI初始模型之一的开源产品，而xAI成立仅两年时间。”但对此，也有其他网友反驳道，“OpenAI的gpt-oss并非其旗舰模型，而是一个开源版本，将其与Grok进行比较具有误导性。”

另值得注意的是，OpenAI的开源语言模型似乎比其最新的AI推理模型o3和o4-mini产生幻觉的程度还要高得多。

OpenAI发现，在PersonQA（该公司用于衡量模型对人类认知准确度的内部基准）上，gpt-oss-120b和gpt-oss-20b在回答问题时分别产生了49%和53%的幻觉。这比OpenAIo1模型（得分为16%）的幻觉率高出三倍多，也高于其o4-mini模型（得分为36%）。

根据OpenAI的内部测试，o3和o4-mini已经比该公司之前的推理模型o1、o1-mini和o3-mini以及OpenAI传统的“非推理”模型（如GPT-4o）产生幻觉的频率都更高。该公司此前曾表示，尚不清楚具体原因。但OpenAI在一份白皮书中表示，这是“意料之中的，因为小型模型的世界知识比大型前沿模型更少，更容易产生幻觉。”

有网友表示，“完全没有任何实用性的模型，估计是只用了大模型输出的跑分测试的合成数据进行训练，这也能拿的出手吗？”

而gpt-oss的实测效果似乎也差强人意。一位用户表示，他从初步测试中发现了不少gpt-oss的缺点，包括以下方面：

创意写作不行，比Kimi2、o3差远了。

Tau-Bench基准测试显示，gpt-oss-20b在工具调用可靠性方面明显逊色（54.8分），而120b（67.8分）与o3（70.4分）不相上下，这有点可惜。

高强度推理模式实际上根本没用，它经常陷入近乎无限的循环并超时，要么就是用户自己先耗不下去了。

参考链接：

https://openai.com/index/introducing-gpt-oss/

https://techcrunch.com/2025/08/05/openai-launches-two-open-ai-reasoning-models/?utm_source=chatgpt.com