首页 > AI教程资讯

豆包深度思考模型正式发布!和o3一样能「看图思考」,还有一个Agent大招

文章来源:08ai导航网发布时间:2025-08-15 11:16:53

这两个月,AI 模型和产品的发布节奏用「日新月异」都不足以形容了。

GPT-4o 生图的爆火似乎还是昨天,OpenAI 放出了自家最强推理模型 o3 和 o4 mini,但这可能还不是这个月最重磅的 AI 发布,DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「Grok-3.5」 ,极有可能将在本月陆续发布。

而且就在今天,字节还发布了一整套 AI 全家桶,深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。

先看看这次字节发布的产品和亮点有哪些:

1. 豆包 1.5 · 深度思考模型

推理能力跻身全球第一梯队

更低延迟支撑高要求应用

多模态理解与应用场景:支持「边想边搜」和「视觉推理」

2. 文生图 3.0

3 秒出图

原生 2K 高清

文本排版与小字生成优化

美感效果和生图结构提升

3. 豆包 1.5 视觉理解模型新版

视觉定位更精准

对视频的理解更智能

4. AI Agent

垂类应用 Agent:豆包推出了国内首个 AI IDE——Trae

OS Agent:能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务

字节这一系列产品升级,不仅在推理能力和多模态理解上实现突破,也通过 Agent 加速 AI 在更多场景的应用落地。

就像火山引擎总裁谭待所说的,「如果说 2024 年是中国 AI 应用的元年,那 2025 年极有可能是 AI Agent 应用的元年。」

豆包 1.5·深度思考模型:像人一样思考和观察

豆包 1.5·深度思考模型作为本次升级的核心,有三个关键升级:更强的推理效果、极低的响应延迟和全面的多模态能力。

在专业领域推理能力测试中,豆包深度思考模型整体达到或接近全球第一梯队水平。

数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。

编程竞赛方面,在 Codeforces pass@8 测试中接近 OpenAI o1。

科学推理能力在 GPQA 测试中也接近 o3-mini。

豆包 1.5·深度思考模型采用总参数达 200B 的 MoE 架构,但激活参数仅为 20B。

这种设计可以在保证强大性能的同时,显著降低了训练和推理成本,实现了 20 毫秒的极低延迟,这意味着能更好应用在对延迟敏感的实时交互场景。

豆包深度思考模型技术报告