文章来源:万象ai发布时间:2024-12-11 00:03:57

Openai刚刚在太平洋时间 5 月 13 日星期一上午 10 点在发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。 GPT-4o具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它还能够从用户的声音中检测他们的情绪。它的速度比 GPT4-turbo 快 2 倍,价格便宜 50%!
GPT-4o是什么?
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
借助 GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。
GPT-4o模型评估
根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。
GPT-4o语言标记化
有 20 种语言被选为新分词器跨不同语系压缩的代表。
模型安全性和局限性
GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。我们还创建了新的安全系统,为语音输出提供防护。
我们根据我们的标准评估了 GPT-4oPreparedness Framework and in line with our voluntary commitments准备框架并符合我们的自愿承诺。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
GPT-4o 还与 70 多个外部红队进行了广泛的合作external experts社会心理学、偏见和公平以及错误信息等领域的外部专家,以确定新增加的模式引入或放大的风险。我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。
我们认识到 GPT-4o 的音频模式带来了各种新的风险。今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。
我们希望得到反馈来帮助确定 GPT-4 Turbo 仍然优于 GPT-4o 的任务,以便我们可以继续改进模型。
型号可用性
GPT-4o 是我们突破深度学习界限的最新举措,这次是朝着实用性的方向发展。在过去的两年里,我们花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供 GPT-4 级别模型。 GPT-4o 的功能将迭代推出(从今天开始扩大红队访问权限)。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。我们将在未来几周内在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。我们计划在未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
更多GPT-4o详细内容:https://openai.com/index/hello-gpt-4o/
上一篇: Open Al的春季节发布会有哪些更新
Open Al的春季节发布会有哪些更新_映技派,专注ai人工智能!,对Open Al的春节发布会做个小总结遗漏的大家可以补充!新增桌面应用程序&web Ul更新发布GPT-4o,且免费使用,text、Voice、Video、lmage 集成于一体ADl浦座担克2位住它50%,与 GPT-4 Turbo 相比,速率限制提高5 倍语音助手多人实时演示,主要演示了与ChatGPT实时对话,不仅能“听”,还能“看”,当然能“思考”和“回复多模态识别可以让ChatGPT和你
下一篇: OpenAI推出的ChatGPT最新版会有哪些升级更新
OpenAI推出的ChatGPT最新版会有哪些升级更新_映技派,专注ai人工智能!,OpenAI周一推出的ChatGPT最新版有哪些升级更新
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25