文章来源:万象ai发布时间:2025-04-02 13:11:31
AI奇点网6月28日报道 | 微软研究人员在人工智能领域的创新之一是ZeRO++,一种旨在优化大型模型训练的系统。大规模模型如Turing-NLG、ChatGPT和GPT-4的训练需要跨多个GPU设备的大量内存和计算资源。为了克服ZeRO在小批量和低带宽集群训练中的限制,DeepSpeed团队开发了ZeRO++,它在现有的ZeRO优化基础上引入了增强的通信策略。

ZeRO系列优化使用集体GPU内存和计算能力进行模型状态的跨GPU划分,而不是复制。然而,在训练过程中,ZeRO可能会导致较高的通信开销。为了解决这个问题,ZeRO++结合了三个通信优化策略:量化权重通信(qwZ)、分层权重划分(hpZ)和量化梯度通信(qgZ)。
ZeRO++采用了权重量化,利用基于块的量化来降低参数通信量,并保持训练精度。通过在每台机器内维护完整的模型副本来交换GPU内存进行通信,最大限度地减少了反向传播期间的通信开销。对于梯度通信,ZeRO++引入了qgZ,一种新颖的量化梯度通信范例,可以减少跨节点流量和延迟。

这些通信优化使通信量显著减少,ZeRO++相较于ZeRO的减少量可达到4倍,从而提高了训练吞吐量和效率。当每个GPU使用小批量大小时,在高带宽集群中,ZeRO++的吞吐量比ZeRO-3提高了28%到36%。与ZeRO-3相比,ZeRO++在低带宽集群中平均加速了2倍,使得大型模型训练更容易在更广泛的集群中进行。
除了训练场景,ZeRO++还可以扩展到使用人类反馈(RLHF)训练的强化学习对话模型中。通过与DeepSpeed-Chat的集成,RLHF训练可以受益于改进的生成和训练阶段,实现比ZeRO更高的生成吞吐量(高出2.25倍)和训练吞吐量(高出1.26倍)。

DeepSpeed发布了ZeRO++,使得大型模型训练更加高效,并可供AI社区使用。这一系统旨在加速训练、减少通信开销,并实现更大的批量,最终节省时间和资源。研究人员和从业者可以利用ZeRO++更有效地训练ChatGPT等模型,并探索人工智能的新可能性。
上一篇: 谷歌透露开发中的语言模型 Gemini,将结合 AlphaGo 技术和大型语言模型
谷歌公司在最近的采访中透露了正在开发中的大型语言模型 Gemini。该系统将结合 AlphaGo 技术和大型语言模型,在赋予系统规划和问题解决等新的能力,超过 OpenAI 的 GPT-4。
下一篇: ChatGPT凭证被窃取者感染的设备数量激增,亚太地区受影响最严重
全球网络安全领导者Group-IB的最新报告指出,在过去一年中,被窃取者感染的设备中存储的ChatGPT凭证数量急剧上升。亚太地区成为了这一现象最为集中的地区。Group-IB的调查结果以及他们针对减少凭证泄露风险提出的建议,提醒用户和企业加强对ChatGPT账户的安全防护。
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25