豆包深度思考模型正式发布！和o3一样能「看图思考」，还有一个Agent大招

文章来源：08ai导航网发布时间：2025-08-15 11:16:53

这两个月，AI 模型和产品的发布节奏用「日新月异」都不足以形容了。

GPT-4o 生图的爆火似乎还是昨天，OpenAI 放出了自家最强推理模型 o3 和 o4 mini，但这可能还不是这个月最重磅的 AI 发布，DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「Grok-3.5」，极有可能将在本月陆续发布。

而且就在今天，字节还发布了一整套 AI 全家桶，深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。

先看看这次字节发布的产品和亮点有哪些：

1. 豆包 1.5 · 深度思考模型

推理能力跻身全球第一梯队

更低延迟支撑高要求应用

多模态理解与应用场景：支持「边想边搜」和「视觉推理」

2. 文生图 3.0

3 秒出图

原生 2K 高清

文本排版与小字生成优化

美感效果和生图结构提升

3. 豆包 1.5 视觉理解模型新版

视觉定位更精准

对视频的理解更智能

4. AI Agent

垂类应用 Agent：豆包推出了国内首个 AI IDE——Trae

OS Agent：能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务

字节这一系列产品升级，不仅在推理能力和多模态理解上实现突破，也通过 Agent 加速 AI 在更多场景的应用落地。

就像火山引擎总裁谭待所说的，「如果说 2024 年是中国 AI 应用的元年，那 2025 年极有可能是 AI Agent 应用的元年。」

豆包 1.5·深度思考模型作为本次升级的核心，有三个关键升级：更强的推理效果、极低的响应延迟和全面的多模态能力。

在专业领域推理能力测试中，豆包深度思考模型整体达到或接近全球第一梯队水平。

数学推理方面，在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。

编程竞赛方面，在 Codeforces pass@8 测试中接近 OpenAI o1。

科学推理能力在 GPQA 测试中也接近 o3-mini。

豆包 1.5·深度思考模型采用总参数达 200B 的 MoE 架构，但激活参数仅为 20B。

这种设计可以在保证强大性能的同时，显著降低了训练和推理成本，实现了 20 毫秒的极低延迟，这意味着能更好应用在对延迟敏感的实时交互场景。

豆包深度思考模型技术报告

上一篇: 最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

“史上最强视觉生成模型”，现在属于快手。一基双子的可灵AI基础模型——文图生图的可图、文图生视频的可灵，都重磅升级到2 0版本。可图2 0，对比MidJourney 7 0，胜负比「(good+s