文章来源:08ai导航网发布时间:2025-08-08 17:56:07
等了多年的GPT-5,终于在这个凌晨发布了。
我们一脸的期待,直播中OpenAI几位核心人员的紧张也肉眼可见。
直播过程中,奥特曼也是连发十几条推特,介绍GPT-5的看点。
因为信息点比较多,我们就以奥特曼的推特内容为依据为大家一一介绍。
首先,这是一个集成模型。也就是说,你用它的时候不需要在不同模型之间切换,它会自己决定何时需要深入思考。
尽管奥特曼强调benchmark不重要,但他们还是晒出了不少跑分结果,比如在数学、编程、视觉感知和健康领域。具体跑分如下:
数学领域:在2025年AIME测试中无工具辅助达到94.6%
实际编程应用:SWE-benchVerified达到74.9%,AiderPolyglot达到88%
多模态理解:MMMU达到84.2%
健康领域:HealthBenchHard达到46.2%
通过GPT-5pro的扩展推理能力,该模型还在GPQA测试中创造了新的SOTA,在无工具辅助的情况下得分88.4%。
费用方面,GPT-5分为免费版、Plus和Pro计划。根据奥特曼的说法,免费版也能用上「博士级别的智能」(GPT-5普通版,但带推理功能),Plus用户在使用频率上限制更少,而Pro用户可以用上GPT-5Pro。
面向开发者,GPT-5的三个版本API价格如下:标准版GPT-5为每百万输入Token1.25美元,每百万输出Token10美元,GPT-5mini版与Nano版会更便宜。
虽然直播长达一个多小时,但OpenAI大部分时间都在介绍GPT-5有多「好用」。
比如在教育方面,它可以在几分钟之内生成数百行代码,生成互动内容来解释复杂概念,比如伯努利效应。
在写作方面,GPT-5的文笔比GPT-4o要好。
在编程方面,它可以用几分钟时间写出一个法语学习网页,帮你练发音,还能做题、玩游戏。
语音模式也得到了升级,语音语调更加自然,想聊多久聊多久,语速也能随便调,非常适合拿来学外语。
之前我们报道过的「AI看病」功能,他们也做了专门的优化,还请了一位癌症患者现场分享自己的经历,以及ChatGPT在解释病情方面给予她的帮助。奥特曼表示,GPT-5是迄今为止最好的健康模型。
不过,现场也出了一些**ug,比如做出的跑分图竟然是错的,奥特曼也承认了错误:
这样的错误还不止一个:
更尴尬的是,马斯克也跑来拆台,转发了GPT-5在ARC-AGI-2上没有打败Grok4的消息:
连关于减少幻觉方面的demo,也被人挑出了毛病:
不过,有人说,这不是「幻觉」问题,而是数据来源就有问题。
总体来看,GPT-5的表现在很多人看来没有达到预期。
那么,GPT-5的各方面表现到底怎么样?我们来看一下技术博客中的详细信息。
GPT‑5是一个包含三个模型的统一系统:回答大部分常规问题的高效应答模型、解答复杂难题的深度推理模型「GPT‑5Thinking模式」,以及根据对话类型、问题复杂度、工具需求及用户明确指令(例如输入"深入思考这个问题")自动分配最优处理模型的实时router。
该router系统通过用户切换模型行为、回答偏好数据及准确率反馈等实时信号持续优化。当使用量达限时,各模型的精简版本将接管后续查询。
OpenAI计划在近期将这些能力融合至单一终极模型。
GPT‑5不仅在基准测试中表现优于前代模型、响应速度更快,更重要的是——它能更有效地处理现实场景中的各类需求。
OpenAI表示,GPT5在三大关键领域取得重大突破:显著降低幻觉生成、提升指令遵循精度、减少迎合性回答。同时,GPT‑5在ChatGPT最常用的三大功能场景(文本创作、编程开发、健康咨询)中表现全面提升。
接下来,就让我们看下GPT-5在各项基准上的成绩。
据博客介绍,GPT‑5在各项能力上均实现显著提升,尤其在数学、编程、视觉理解和健康领域表现突出。数学领域,无工具辅助下GPT-5AIME2025测试达94.6%;真实场景编程,GPT-5得分分别为SWE-benchVerified74.9%/AiderPolyglot88%,多模态理解上MMMU84.2%,及健康领域HealthBenchHard46.2%。搭载扩展推理能力的GPT‑5专业版更在GPQA基准测试中以88.4%的成绩(无工具辅助)创下新纪录。
不应将使用工具的AIME结果与不使用工具的模型的性能直接进行比较;这是GPT-5如何有效利用可用工具的一个例子。
指令遵循与智能工具调用能力:GPT‑5在指令遵循和智能工具调用基准测试中表现显著提升。这类能力使其能够可靠地执行多步骤请求、跨工具协同操作,并适应上下文变化。实际应用中,这意味着GPT‑5更擅长处理复杂且动态变化的任务:它能更精准地遵循用户指令,并充分利用现有工具端到端地完成更多工作环节。
这是一个GPT-5写的小游戏demo:
该模型在多模态基准测试中表现卓越,涵盖视觉、视频、空间及科学推理等多个领域。增强的多模态能力意味着ChatGPT能更精准地解析图像等非文本输入——无论是解读图表数据、总结演示文稿照片,还是回答基于示意图的提问。
在OpenAI内部一个评估基准上,GPT5同样表现卓越,该测试专门评估模型在复杂、经济价值知识型工作上的表现。在启用推理功能时,GPT‑5在大约半数案例中的表现达到或超越人类专家水平,同时在法律、物流、销售、工程等40多个职业领域的综合任务表现上全面优于o3模型和ChatGPTAgent。
上述评估的方法论说明:GPT-4o的测试结果基于截至2025年8月ChatGPT中的最新模型版本。所有模型均在"高推理强度"设置下进行评估。需注意的是,ChatGPT中的推理强度可调节,而"高"强度代表用户使用模型时可能体验到的性能上限。
GPT‑5能以更少的思考时间创造更大价值。评估数据显示,在视觉推理、智能体编程和研究生级科学问题解决等场景中,启用思考功能的GPT‑5性能表现优于OpenAIo3模型,同时输出token量减少50-80%。
这里,OpenAI特意提到,GPT‑5是在微软AzureAI超级计算机上训练的。
当然,GPT-5也第一时间就上线到了微软的平台。
为了应对最具挑战性、最复杂的任务,OpenAI还发布了GPT-5pro,以取代OpenAIo3-pro。o3-pro是GPT-5的一个变体,它能够长时间思考,使用可扩展且高效的并行测试时间计算,从而提供最高质量和最全面的答案。
GPT-5pro在多项极具挑战性的智能基准测试中取得了GPT-5系列中的最高性能,包括在包含极其困难的科学问题的GPQA上取得的领先性能。
此外,我们还是把GPT-5的模型系统卡放到最后,感兴趣的读者们可以自行研究。
链接:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
值得一提是这张图,展示了今天发的GPT-5系列模型与前几代OpenAI模型之间的关联:
最后,还是想问一句:GPT-5符合你的预期吗?是不是更期待DeepSeek-R2了?
本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:关注大模型的,经授权发布。
相关攻略 更多
最新资讯 更多
刚刚,奥特曼发布GPT-5,人人免费用“博士级”智能,基准图错误遭全网吐槽
更新时间:2025-08-08
硅谷AI大佬都在造末日地堡:小扎夏威夷修了465平米,奥特曼承认有加固地下室
更新时间:2025-08-08
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
更新时间:2025-08-08
OpenAI o3封王,4比0横扫马斯克Grok 4,全球大模型对抗赛完美收官
更新时间:2025-08-08
全球最大AI模型聚合平台诞生!不争冠军只做擂台
更新时间:2025-08-08
医疗界Google,估值35亿美元
更新时间:2025-08-08
蚂蚁投了一家具身智能公司,做手的
更新时间:2025-08-08
巨头搅局具身智能,世界机器人大会看什么?
更新时间:2025-08-08
优必选五大人形机器人亮相世界机器人大会,群体智能重塑新质生产力
更新时间:2025-08-08
AI 问诊真能救命?微博CEO亲自试了试
更新时间:2025-08-08