文章来源:08ai导航网发布时间:2025-08-08 17:54:48
2023年3月15日,GPT-4发布。当时大部分人还在搞清楚ChatGPT到底怎么用、官网地址在哪里,而我也只是浅尝辄止地试了试GPT-3.5的效果,玩了玩ChatBox,问了一些无聊的问题就不知道问什么了。
所以,至今仍清晰地记得,第一次与GPT-4认真对话后的那种感觉,脑子里盘旋的只有一个念头:天变了。
那时的互联网,洋溢着一种既兴奋又慌乱的淘金热氛围。每个人都在疯狂转发匪夷所思的截图,讨论着哪些职业即将消失。我们真的以为,那就是奇迹本身了。
谁也没想到,那仅仅是长夜的序章。
在漫长的939天等待后,北京时间2025年8月8日凌晨,OpenAI终于揭开了GPT-5的面纱。世界屏息以待,期待着又一次“天变了”的奇迹。
然而,当大幕拉开,我们看到的,却是一场远比想象中更复杂、更矛盾、不可言说、不知从何说起的演出。就像今年OpenAI的常态:普通用户赞不绝口、DAU日益暴增;而硬核用户骂声遍天,我自己其实也早就经历了从GPT到Claude和Gemini的几次主力模型的更迭,很久不用ChatGPT了。而从去年GPT-4o那场惊艳的春季发布会之后,每次OpenAI的发布会都令人五味杂陈,炒作大于惊喜。
···
发布会伊始,SamAltman的定调就充满了实用主义色彩:“GPT-3像高中生,GPT-4o像大学生,而GPT-5,就像一个随需应变的博士级专家团队。”关键词不再是“聊天”,而是“做事”。
而实现这一点的核心,并非简单地堆砌参数,而是一次架构上的哲学革命。
过去,用户在GPT-4o的速度、o3的深度推理之间痛苦抉择,像是在一个摆满了各色武器的军火库里犹豫不决。而GPT-5试图终结这种“选择的烦恼”。
它是一个统一的智能系统。其内部包含一个处理多数问题的快速模型(gpt-5-main),一个为高难度问题设计的深度推理模型(gpt-5-thinking),以及一个最关键的角色——实时路由器(real-timerouter)。这个路由器会像一位经验丰富的项目经理,根据你的问题类型、复杂度、甚至是你的一句“认真思考这个”,来动态决定调动哪位“专家”出马。
通过API使用GPT-5更简单:它提供三种模型——常规(regular)、迷你(mini)和纳米(nano),每种模型都可以在四种推理级别中的任意一种运行:最小(一个以前其他OpenAI推理模型中没有的新级别)、低、中或高。
这些模型的输入限制为272,000个token,输出限制(包括不可见的推理token)为128,000个token。它们支持文本和图像作为输入,仅支持文本作为输出。
OpenAI研究员TinaKim在发布会上也表示:“有了GPT-5,我们将淘汰所有旧模型”,与其说是自信,不如说是一种宣言。那个让用户眼花缭乱的“模型动物园”时代结束了,取而代之的,是一个拥有统一意志的、高度协同的智能有机体。
GPT-5SystemCard,展示了新旧模型的继承关系
任何新王的登基,都离不开一场盛大的“肌肉秀”。GPT-5在各大基准测试中,交出了一份近乎屠榜的成绩单。
但就是这个惯例的benchmark砸数据环节,居然翻车了。
眼尖的网友发现,发布会刚开始五分钟,现场PPT上的柱状图画得“相当随心所欲”。例如,在一张图中,69.1%的柱子竟然比52.8%的还要短。
这个小小的插曲,连同马斯克在X上立刻转发的“Grok4在ARC-AGI-2上击败了GPT-5”的“贺电”,共同构成了一个有趣的注脚。
跑分终究是冰冷的。真正的分野,发生在鲜活的、滚烫的实际体验中。
这,正是GPT-5最核心、最令人着迷,也最让人不安的地方。它没有普惠所有创造者,而是做出了明确的取舍。
首先是多模态。音频输入/输出和图像生成,目前不在GPT-5的技能范畴。这些功能仍由如GPT-4oAudio、GPT-4oRealtime及其迷你版本和GPTImage1以及DALL-E图像生成模型所覆盖。
但没准马上就会有GPT-5o了,也说不定。
然后就是开发者最关心的AI编程。今年是开发者幸福的一年,GPT-5发布的同一天就有CursorCLI的同期发布,各式各样的CodingAgent全在今年井喷。
发布会上的演示已经足够惊艳:短短两分钟,仅凭一句“为我的伴侣构建一个学习法语的Web应用”,GPT-5便生成了包含闪卡、测验、甚至是一个“老鼠吃奶酪”版贪吃蛇游戏的完整交互式网站。
更关键的考验,在于对生产级代码的精准修改能力。在另一个测试中,开发者要求AI在一个复杂的生产项目中,对一个.ts文件的特定props进行修改,并同步更新所有引用了该组件的文件。这是一个极易出错、牵一发而动全身的繁琐任务。
结果是,Gemini2.5Pro和Claude4Opus“全崩了”。而GPT-5,完美地完成了任务。它不再是一个只会“写”代码的工具,它开始“理解”项目,像一个真正的资深同事那样思考。
AI编程创企Cursor的CEOMichaelTruell受邀在发布会上演示,他让GPT-5解决了一个在OpenAIPythonSDK的GitHub上挂了三周的issue。GPT-5快速地制定计划、搜索代码库、定位问题、进行修改,整个过程行云流水。Truell的评价是:“这是我第一次信任一个模型来完成我最重要的工作。”
而要让这种“值得信赖”的能力真正普及,成为开发者生态的基石,一个颠覆性的商业策略必不可少。这里先来聊聊GPT-5的API定价,堪称一场市场**。每百万输入Token仅1.25美元,比GPT-4o便宜一半,甚至比谷歌、Anthropic的同级模型都更具竞争力。这背后是清晰的战略意图:以利润换市场,以低价换生态。
引用自SimonWillison最新文章
价格对比,让我想到了今年那个被誉为OpenAI翻车之作的GPT-4.5,也就是后来被蒸馏成了GPT-4.1的那款模型(这波反向命名,到现在也觉得很离谱)。
当时也还不是图上GPT-4.1的每百万输出8美元,而是180美元,被称为天价。它实际上就是GPT-5预训练失败的产物,内部代号“orion”,正好发布的时候撞上了DeepSeek-R1降价,自然而然成为群嘲的对象。
但这个天价模型,却一度成为了许多用户心中最强的写作模型,GPT-4.5在当时的官方宣传里,也是主打情感推理和真实人类体验。
而文本写作正是GPT-5当前引起争议的能力,能提供自主选择模型的智能混合体GPT-5,似乎没有一个模型能和情感特化的GPT-4.5媲美写作能力:
SamAltman本人则是发了个推,用“GPT-4o的悼词”这个黑色幽默,来证明GPT-5的写作能力获得了极大地增强:
但就在他推文底下的评论也有人反馈,GPT-5的写作似乎确实不尽人意。
之所以要提编程和写作,是因为在GPT-5的系统卡片里,编程、写作和健康被官方认定为ChatGPT最常用的三大场景。
我们在减少幻觉、提高指令遵循能力以及最小化阿谀奉承方面取得了显著进展,并在聊天机器人ChatGPT最常见的三种用途——写作、编程和健康领域提升了GPT-5的表现。所有GPT-5模型还配备了我们最新的安全训练方法——安全完成,以防止生成不允许的内容。
在不久前OpenAI的两款全新开源模型gpt-oss-120b和gpt-oss-20b中,也投入了许多努力在医疗健康相关的问题。
无论是编程、写作还是事关生死的健康咨询,一个无法绕开的达摩克利斯之剑,便是模型的可靠性。实际应用中,大家最关心的还是模型幻觉的问题,和今年几乎所有发布会的演讲者一样,SamAltman也宣称GPT-5大幅减少了幻觉。(这里我想到的其实是皮查伊和马斯克,尤其是皮查伊经常喜欢强调谷歌模型的幻觉问题)
今天看SimonWillison的文章有个很有意思的观点,今年很多模型幻觉普遍减少,Gemini2.5Pro和Claude4也都没什么幻觉,其实有一部分原因是大家更会用AI了。
用AI多的人,会自然规避掉那些容易引发幻觉的提示词,比如向不具备搜索功能的模型请求URL或论文引用,或者是资料不给全就直接让AI写篇万字长文等等,全是两年前常犯的毛病。
除了直接生成错误答案,还有一种模型幻觉叫作“AI自己以为自己完成了任务”,这个在去年的很多模型堪称通病。所以OpenAI在GPT-5的系统卡片还写道:
我们让gpt-5-thinking在一些部分或完全无法完成的任务中进行各种尝试,并奖励模型诚实地承认它无法完成该任务。
在需要使用工具(如网络浏览工具)来回答用户查询的任务中,以前的模型在工具不可靠时会编造信息。我们通过故意禁用工具或让它们返回错误代码来模拟这种场景。
谈到幻觉就得说说提示注入攻击。OpenAI慷慨地分享了一个很详尽的图表,展示GPT-5抵抗提示注入攻击的能力:
56.8%,前所未有的成绩。但换个角度想想,就是仍有一半以上的提示注入攻击仍对AI有效,所以这个问题还是没得到本质上的解决。
回到开头那个问题,GPT-5发布,天变了吗?
目前我还是打算让Claude来完成编程任务,让Gemini去写作,对于专业用户而言,我们可以在网络上看到大量专业用户对GPT-5的抨击。但正如前文所述,OpenAI的DAU日益暴增,ChatGPT的用户体验对普通用户非常有吸引力,今年GPT-4o引起的吉卜力画风热潮就是佐证,到现在笔者的朋友圈还有很多吉卜力画风的头像。
这是产品层面上的碎碎念,而更深远上,我看到了一些很有意思的观点,其中不乏“Transformer架构已经到瓶颈期”的结论,呼吁新的架构突破:
毕竟,许多人期望GPT-5能和当年的GPT-4一样大杀特杀,斩下ARC-AGI,而不是如今四平八稳的提升,甚至被马斯克当天打脸。
或许,AI发展的第一个篇章——那个充满了惊奇、狂想与无限可能的“大航海时代”,或许已经结束了。我们迎来的,是一个更成熟、更专业、目标更明确的“工业时代”。
至少对于开发者而言,这无疑是一个黄金时代。而对于依赖AI进行创意写作的人来说,这或许是一个警示,也是一个新的起点。
现在不妨再观望几天,也欢迎在评论区,分享你使用GPT-5的那些实际体验感受。
相关攻略 更多
最新资讯 更多
GPT-5 之后,我们离 AGI 更近了,还是更远了?
更新时间:2025-08-08
AI遭遇灵魂拷问!这道题所有模型集体翻车,网友:我也不会啊
更新时间:2025-08-08
微软大会拉来Altman、马斯克,纳德拉的AIAgent野心藏不住了
更新时间:2025-08-08
Manus割不动国内用户
更新时间:2025-08-08
AI眼镜+键盘+配件=6999元?不不不这叫空间计算机
更新时间:2025-08-08
「派呦科技」获数百万元天使轮投资,解锁AI时代超越乐高的创造力工具
更新时间:2025-08-08
智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA
更新时间:2025-08-08
老黄唱衰编程,GitHubCEO硬刚:放弃写代码等于放弃智能体未来话语权
更新时间:2025-08-08
美团要开放AI编程能力,将推出新产品NoCode|智能涌现独家
更新时间:2025-08-08
刚刚,老黄官宣在中国台北建AI超算!
更新时间:2025-08-08