文章来源:万象ai发布时间:2025-03-10 10:11:40
昨天是DeepSeek ai开源周第一天,开源的项目是FlashMLA,不到半小时,Github已经已经300多Star了,短短1小时就超过10W阅读,非常的火爆,今天是DeepSeek开源周的第二天,DeepSeek开源了第2个项目:Deepep。

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构,充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用,使得用户能够在常规硬件上有效运行大规模模型。
MoE架构优化:
DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计,提供高效的all-to-all GPU内核,适用于训练和推理任务。
支持低精度运算,包括FP8和BF16,提升计算效率,节省显存。
高性能通信:
提供高吞吐量和低延迟的通信内核,支持NVLink和RDMA网络。在H800 GPU上测试,最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。
针对NVLink到RDMA的非对称带宽转发场景进行了优化,确保高吞吐量表现。
低延迟通信:
提供纯RDMA的低延迟内核,特别适合推理解码阶段,延迟低至163微秒。
引入基于hook的通信-计算重叠方法,不占用GPU SM资源,最大化计算效率。
硬件优化:
利用未公开的PTX指令提升Hopper架构的性能。
支持InfiniBand网络,并理论上兼容RoCE,提供灵活的网络配置选项。
大规模模型训练:
适用于Mixture-of-Experts (MoE) 模型的训练,提供高效的并行通信支持,显著提升训练效率。
推理任务:
特别适合延迟敏感的推理解码场景,显著提升效率,降低延迟,提高推理吞吐量。
高性能计算需求:
完美适配现代高性能计算需求,支持多种硬件平台,包括Hopper GPU架构,未来可能扩展更多设备。
易用性:
支持Hopper GPU架构,需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。
安装时需搭配团队修改版的NVSHMEM,安装指南详细。
集成方式:
开源且易于集成,只需几行命令即可构建并运行测试。
安装后导入deep_ep模块即可直接使用,提供示例代码和测试脚本。
DeepEP已在GitHub上开源,地址:https://github.com/deepseek-ai/DeepEP
1. DeepSeek开源周第一天开源项目:DeepSeekFlashMLA
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25