GPT-5 之后，我们离 AGI 更近了，还是更远了？

文章来源：08ai导航网发布时间：2025-08-08 17:54:48

2023年3月15日，GPT-4发布。当时大部分人还在搞清楚ChatGPT到底怎么用、官网地址在哪里，而我也只是浅尝辄止地试了试GPT-3.5的效果，玩了玩ChatBox，问了一些无聊的问题就不知道问什么了。

所以，至今仍清晰地记得，第一次与GPT-4认真对话后的那种感觉，脑子里盘旋的只有一个念头：天变了。

那时的互联网，洋溢着一种既兴奋又慌乱的淘金热氛围。每个人都在疯狂转发匪夷所思的截图，讨论着哪些职业即将消失。我们真的以为，那就是奇迹本身了。

谁也没想到，那仅仅是长夜的序章。

在漫长的939天等待后，北京时间2025年8月8日凌晨，OpenAI终于揭开了GPT-5的面纱。世界屏息以待，期待着又一次“天变了”的奇迹。

然而，当大幕拉开，我们看到的，却是一场远比想象中更复杂、更矛盾、不可言说、不知从何说起的演出。就像今年OpenAI的常态：普通用户赞不绝口、DAU日益暴增；而硬核用户骂声遍天，我自己其实也早就经历了从GPT到Claude和Gemini的几次主力模型的更迭，很久不用ChatGPT了。而从去年GPT-4o那场惊艳的春季发布会之后，每次OpenAI的发布会都令人五味杂陈，炒作大于惊喜。

···

发布会伊始，SamAltman的定调就充满了实用主义色彩：“GPT-3像高中生，GPT-4o像大学生，而GPT-5，就像一个随需应变的博士级专家团队。”关键词不再是“聊天”，而是“做事”。

而实现这一点的核心，并非简单地堆砌参数，而是一次架构上的哲学革命。

过去，用户在GPT-4o的速度、o3的深度推理之间痛苦抉择，像是在一个摆满了各色武器的军火库里犹豫不决。而GPT-5试图终结这种“选择的烦恼”。

它是一个统一的智能系统。其内部包含一个处理多数问题的快速模型（gpt-5-main），一个为高难度问题设计的深度推理模型（gpt-5-thinking），以及一个最关键的角色——实时路由器（real-timerouter）。这个路由器会像一位经验丰富的项目经理，根据你的问题类型、复杂度、甚至是你的一句“认真思考这个”，来动态决定调动哪位“专家”出马。

通过API使用GPT-5更简单：它提供三种模型——常规（regular）、迷你（mini）和纳米（nano），每种模型都可以在四种推理级别中的任意一种运行：最小（一个以前其他OpenAI推理模型中没有的新级别）、低、中或高。

这些模型的输入限制为272,000个token，输出限制（包括不可见的推理token）为128,000个token。它们支持文本和图像作为输入，仅支持文本作为输出。

OpenAI研究员TinaKim在发布会上也表示：“有了GPT-5，我们将淘汰所有旧模型”，与其说是自信，不如说是一种宣言。那个让用户眼花缭乱的“模型动物园”时代结束了，取而代之的，是一个拥有统一意志的、高度协同的智能有机体。

GPT-5SystemCard，展示了新旧模型的继承关系

任何新王的登基，都离不开一场盛大的“肌肉秀”。GPT-5在各大基准测试中，交出了一份近乎屠榜的成绩单。

但就是这个惯例的benchmark砸数据环节，居然翻车了。

眼尖的网友发现，发布会刚开始五分钟，现场PPT上的柱状图画得“相当随心所欲”。例如，在一张图中，69.1%的柱子竟然比52.8%的还要短。

这个小小的插曲，连同马斯克在X上立刻转发的“Grok4在ARC-AGI-2上击败了GPT-5”的“贺电”，共同构成了一个有趣的注脚。

跑分终究是冰冷的。真正的分野，发生在鲜活的、滚烫的实际体验中。

这，正是GPT-5最核心、最令人着迷，也最让人不安的地方。它没有普惠所有创造者，而是做出了明确的取舍。

首先是多模态。音频输入/输出和图像生成，目前不在GPT-5的技能范畴。这些功能仍由如GPT-4oAudio、GPT-4oRealtime及其迷你版本和GPTImage1以及DALL-E图像生成模型所覆盖。

但没准马上就会有GPT-5o了，也说不定。

然后就是开发者最关心的AI编程。今年是开发者幸福的一年，GPT-5发布的同一天就有CursorCLI的同期发布，各式各样的CodingAgent全在今年井喷。

发布会上的演示已经足够惊艳：短短两分钟，仅凭一句“为我的伴侣构建一个学习法语的Web应用”，GPT-5便生成了包含闪卡、测验、甚至是一个“老鼠吃奶酪”版贪吃蛇游戏的完整交互式网站。

更关键的考验，在于对生产级代码的精准修改能力。在另一个测试中，开发者要求AI在一个复杂的生产项目中，对一个.ts文件的特定props进行修改，并同步更新所有引用了该组件的文件。这是一个极易出错、牵一发而动全身的繁琐任务。

结果是，Gemini2.5Pro和Claude4Opus“全崩了”。而GPT-5，完美地完成了任务。它不再是一个只会“写”代码的工具，它开始“理解”项目，像一个真正的资深同事那样思考。

AI编程创企Cursor的CEOMichaelTruell受邀在发布会上演示，他让GPT-5解决了一个在OpenAIPythonSDK的GitHub上挂了三周的issue。GPT-5快速地制定计划、搜索代码库、定位问题、进行修改，整个过程行云流水。Truell的评价是：“这是我第一次信任一个模型来完成我最重要的工作。”

而要让这种“值得信赖”的能力真正普及，成为开发者生态的基石，一个颠覆性的商业策略必不可少。这里先来聊聊GPT-5的API定价，堪称一场市场**。每百万输入Token仅1.25美元，比GPT-4o便宜一半，甚至比谷歌、Anthropic的同级模型都更具竞争力。这背后是清晰的战略意图：以利润换市场，以低价换生态。

引用自SimonWillison最新文章

价格对比，让我想到了今年那个被誉为OpenAI翻车之作的GPT-4.5，也就是后来被蒸馏成了GPT-4.1的那款模型（这波反向命名，到现在也觉得很离谱）。

当时也还不是图上GPT-4.1的每百万输出8美元，而是180美元，被称为天价。它实际上就是GPT-5预训练失败的产物，内部代号“orion”，正好发布的时候撞上了DeepSeek-R1降价，自然而然成为群嘲的对象。

但这个天价模型，却一度成为了许多用户心中最强的写作模型，GPT-4.5在当时的官方宣传里，也是主打情感推理和真实人类体验。

而文本写作正是GPT-5当前引起争议的能力，能提供自主选择模型的智能混合体GPT-5，似乎没有一个模型能和情感特化的GPT-4.5媲美写作能力：

SamAltman本人则是发了个推，用“GPT-4o的悼词”这个黑色幽默，来证明GPT-5的写作能力获得了极大地增强：

但就在他推文底下的评论也有人反馈，GPT-5的写作似乎确实不尽人意。

之所以要提编程和写作，是因为在GPT-5的系统卡片里，编程、写作和健康被官方认定为ChatGPT最常用的三大场景。

我们在减少幻觉、提高指令遵循能力以及最小化阿谀奉承方面取得了显著进展，并在聊天机器人ChatGPT最常见的三种用途——写作、编程和健康领域提升了GPT-5的表现。所有GPT-5模型还配备了我们最新的安全训练方法——安全完成，以防止生成不允许的内容。

在不久前OpenAI的两款全新开源模型gpt-oss-120b和gpt-oss-20b中，也投入了许多努力在医疗健康相关的问题。

无论是编程、写作还是事关生死的健康咨询，一个无法绕开的达摩克利斯之剑，便是模型的可靠性。实际应用中，大家最关心的还是模型幻觉的问题，和今年几乎所有发布会的演讲者一样，SamAltman也宣称GPT-5大幅减少了幻觉。（这里我想到的其实是皮查伊和马斯克，尤其是皮查伊经常喜欢强调谷歌模型的幻觉问题）

今天看SimonWillison的文章有个很有意思的观点，今年很多模型幻觉普遍减少，Gemini2.5Pro和Claude4也都没什么幻觉，其实有一部分原因是大家更会用AI了。

用AI多的人，会自然规避掉那些容易引发幻觉的提示词，比如向不具备搜索功能的模型请求URL或论文引用，或者是资料不给全就直接让AI写篇万字长文等等，全是两年前常犯的毛病。

除了直接生成错误答案，还有一种模型幻觉叫作“AI自己以为自己完成了任务”，这个在去年的很多模型堪称通病。所以OpenAI在GPT-5的系统卡片还写道：

我们让gpt-5-thinking在一些部分或完全无法完成的任务中进行各种尝试，并奖励模型诚实地承认它无法完成该任务。

在需要使用工具（如网络浏览工具）来回答用户查询的任务中，以前的模型在工具不可靠时会编造信息。我们通过故意禁用工具或让它们返回错误代码来模拟这种场景。

谈到幻觉就得说说提示注入攻击。OpenAI慷慨地分享了一个很详尽的图表，展示GPT-5抵抗提示注入攻击的能力：

56.8%，前所未有的成绩。但换个角度想想，就是仍有一半以上的提示注入攻击仍对AI有效，所以这个问题还是没得到本质上的解决。

回到开头那个问题，GPT-5发布，天变了吗？

目前我还是打算让Claude来完成编程任务，让Gemini去写作，对于专业用户而言，我们可以在网络上看到大量专业用户对GPT-5的抨击。但正如前文所述，OpenAI的DAU日益暴增，ChatGPT的用户体验对普通用户非常有吸引力，今年GPT-4o引起的吉卜力画风热潮就是佐证，到现在笔者的朋友圈还有很多吉卜力画风的头像。

这是产品层面上的碎碎念，而更深远上，我看到了一些很有意思的观点，其中不乏“Transformer架构已经到瓶颈期”的结论，呼吁新的架构突破：

毕竟，许多人期望GPT-5能和当年的GPT-4一样大杀特杀，斩下ARC-AGI，而不是如今四平八稳的提升，甚至被马斯克当天打脸。

或许，AI发展的第一个篇章——那个充满了惊奇、狂想与无限可能的“大航海时代”，或许已经结束了。我们迎来的，是一个更成熟、更专业、目标更明确的“工业时代”。

至少对于开发者而言，这无疑是一个黄金时代。而对于依赖AI进行创意写作的人来说，这或许是一个警示，也是一个新的起点。

现在不妨再观望几天，也欢迎在评论区，分享你使用GPT-5的那些实际体验感受。