文章来源:万象ai发布时间:2025-08-01 14:54:19
7月31日消息,阶跃星辰宣布新一代基础大模型Step3正式开源,Step3API已上线阶跃星辰开放平台(platform.stepfun.com),用户也可以在“阶跃AI”官网(stepfun.com)和“阶跃AI”App进行体验。
据介绍,Step3的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的token负担与训练干扰问题。为此,其采用5BVisionEncoder,并通过双层2D卷积对视觉特征进行降采样,将视觉token数量减少到原来的1/16,减轻上下文长度压力,提升推理效率。
附官方对Step3模型的介绍如下:
Step3兼顾智能与效率,专为追求性能与成本极致均衡的企业和开发者设计,旨在面向推理时代打造最适合应用的模型。
Step3采用MoE架构,总参数量321B,激活参数量38B。
Step3拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。
通过MFA(Multi-matrixFactorizationAttention)&AFD(Attention-FFNDisaggregation)的优化,在各类芯片上推理效率均大幅提升。
面向AFD场景的StepMesh通信库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。
模型限时折扣中,所有请求均按最低价格计算,每百万token价格低至输入1.5元,输出4元。
Step3API已上线阶跃星辰开放平台(platform.stepfun.com),大家也可以在“阶跃AI”官网(stepfun.com)和“阶跃AI”App(应用商店搜索下载)进行体验。
我们在MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench(2024.08-2025.05)等评测集上对Step3进行了测试,在同类型开源模型中,Step3成绩行业领先。
Step3重点解决多模态协同、系统解码成本与推理效率问题,在训练路径、架构设计和推理部署上做了系统级优化。
1、预训练架构
Step3的核心结构采用自研MFA注意力机制,有效降低注意力计算中的KV缓存开销与算力消耗。在不牺牲模型能力的前提下,这一方案实现了资源利用与推理效率的平衡,使得模型可在8×48GB显卡上完成大吞吐量推理,具备真实部署的可行性。
2、多模态预训练
Step3的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的token负担与训练干扰问题。为此,我们采用5BVisionEncoder,并通过双层2D卷积对视觉特征进行降采样,将视觉token数量减少到原来的1/16,减轻上下文长度压力,提升推理效率。
为保证多模态训练的稳定性,训练过程分为两个阶段:第一阶段强化Encoder感知,第二阶段冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。训练语料也需与策略匹配,保障稳定协同。多模语料涵盖Pair、Interleave与多任务数据,在清洗环节中引入相似度过滤、重采样与任务比例控制,进一步提升图文协同质量与训练鲁棒性。
3、AFD解耦系统
Step3在系统架构层重构了解码流程,重点解决Attention与FFN混合执行带来的推理瓶颈以及资源不匹配问题。为此,我们实现了高性能的AFD(Attention-FFNDisaggregation)方案,将两类计算任务解耦成为两个子系统,并通过多级流水线并行调度,有效提升整体吞吐效率。
由于解耦后的子系统之间对数据传输有极高要求,我们同时研发了面向AFD场景的StepMesh通信库,基于GPUDirectRDMA实现跨卡的低延迟和高带宽传输,同时兼备不占用GPU计算资源、适配多类异构硬件等优势。在50ms解码的SLA前提下,Step3在HopperGPU上的吞吐达到4039token/gpu/s,显著高于类似设置下的DeepSeekV3(2324token/gpu/s),且该性能增益在特定硬件与长文场景会进一步放大至300%。
StepMesh库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。之后我们也会积极与各开源社区合作推广,让以上技术更容易被采纳和使用。
相关攻略 更多
热门AI工具更多
最新资讯 更多
阶跃星辰新一代基础大模型Step3正式开源:拥有强大视觉感知和复杂推理能力
更新时间:2025-08-01
北大拿下2篇最佳论文,DeepSeek实习生立功,华人横扫这场AI顶会
更新时间:2025-08-01
Meta太能“抢钱”,难怪小扎有底气疯狂抢人
更新时间:2025-08-01
谷歌“虚拟卫星”AI模型问世:可提供近乎实时的地球视图
更新时间:2025-08-01
重塑AI算力底座!阿里云服务器操作系统V4正式发布
更新时间:2025-08-01
酷狗音乐上线「歌曲过渡」功能AI算法打造流畅听感体验
更新时间:2025-08-01
谷歌通过机器学习判断用户年龄:你的搜索行为、观看内容都可作为依据
更新时间:2025-08-01
评分高达4.8!鸿蒙版Kimi火速上新K2模型网友盛赞“最给力的AI”
更新时间:2025-08-01
字节跳动Seed团队发布扩散语言模型DiffusionPreview,每秒推理速度2146tokens
更新时间:2025-08-01
三天,我看清楚了未来AI将如何介入我们的生活
更新时间:2025-08-01