文章来源:08ai导航网发布时间:2025-08-14 17:54:12
8月14日消息,字节跳动Seed团队今日发布并开源了全模态PyTorch原生训练框架——VeOmni。
近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的“全模态”(Omni-Modal)理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型,依然面临着系统性的工程挑战。
字节跳动介绍称,VeOmni采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。
此前,使用Megatron-LM等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于Infra工程团队的经验积累。而使用VeOmni只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩90%以上。
实验结果表明,基于VeOmni框架,一个300亿参数的全模态MoE模型(支持文本、语音、图片、视频的理解和生成),在128张卡上训练吞吐量可超过2800tokens/sec/GPU,并能轻松扩展至160K超长上下文序列。
目前,VeOmni的相关论文和代码仓库均已对外公开,GitHubStar数超过500。附开源地址:
arXiv:https://arxiv.org/pdf/2508.02317
GitHub:https://github.com/ByteDance-Seed/VeOmni
相关攻略 更多
最新资讯 更多
解锁任意模态AI模型训练,字节跳动Seed开源VeOmni框架
更新时间:2025-08-14
针对中国!美媒揭秘美国在AI芯片出货时偷装追踪器:英伟达AMD超微等绝口不提
更新时间:2025-08-14
339元!小米有品众筹joypalAI睡眠无感监测带:无需穿戴就能测19项数据
更新时间:2025-08-14
SoulApp以AI重构内容社区打造有温度的数字社交生态
更新时间:2025-08-14
阿里启动近千人招聘,涉及夸克、AI眼镜等C端业务
更新时间:2025-08-14
会记住你说的每句话:谷歌AIGeminiApp上线记忆功能
更新时间:2025-08-14
AI开发者必看!阿里云百炼大模型+云服务器119元开售
更新时间:2025-08-14
DeepSeekAI应用更新:支持对话内容生成分享图
更新时间:2025-08-14
从实验室到峡谷战场全制霸联想暑促特惠购拯救者Y9000X2025AI元启最高省3000
更新时间:2025-08-14
AI独角兽总估值达27000亿美元,其中100家成立不到2年
更新时间:2025-08-14