文章来源:万象ai发布时间:2025-03-10 09:47:08
DeepGEMM是一个专为高效FP8通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组GEMM。

CUDA编写:DeepGEMM使用CUDA编写,无需编译,采用轻量级即时(JIT)模块在运行时编译所有内核。
细粒度缩放功能:支持普通和混合专家(MoE)分组GEMM,适用于不同的矩阵形状和计算需求。
性能优化:采用CUDA核心两级累积(提升)解决不精确的FP8张量核心累积问题,利用Hopper TMA功能加速数据移动。
性能优异:尽管设计轻量,但其性能匹敌甚至超过了各种矩阵形状的专家调整库。
易于访问:作为一个干净且易于访问的资源,DeepGEMM是学习Hopper FP8矩阵乘法和优化技术的理想选择。
灵活性:支持自动选择块大小、warpgroups数量、最佳流水线阶段和TMA集群大小,以适应不同的计算需求。
DeepGEMM适用于需要高效矩阵乘法操作的场景,特别是在深度学习ai模型训练和推理中,能够显著提高计算效率和性能。
github:https://github.com/deepseek-ai/DeepGEMM
1.DeepSeek开源周第二天开源项目:Deepep
2. DeepSeek开源周第一天开源项目:DeepSeekFlashMLA
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25