文章来源:08ai导航网发布时间:2025-10-14 15:18:06
9月6日消息,据商汤科技官方消息,近日,商汤大装置SenseCore与昇腾384超节点率先完成全面适配,在功能、性能验证上达到预期目标。
据官方介绍,超节点(SuperPod)是一种通过高速互联技术,将多个GPU/NPU整合为统一计算单元的新型架构,解决AI大模型训练中的算力协同与通信效率问题。
昇腾384超节点(Atlas900A3SuperPoD)是华为推出的业界最大规模超节点方案,凭借创新的“全对等架构”,实现高速互联总线的关键突破——把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,形成一台“超级计算机”,实现更大的算力密度和互联带宽。
基于商汤大装置SenseCore与昇腾384超节点的特点,双方团队联合攻关,在调度优化、系统稳定性以及故障恢复等方面提出多项行业创新:
调度优化:在调度能力上,除了支持POD内单机和多机调度、跨POD多机调度、亲和性调度等基础能力,SenseCore平台配合模型并行策略实现了逻辑超节点自动划分,使EP/TP等大通信策略可以充分利用灵衢网络,提升模型训练效率。
跨POD训练稳定性:另外SenseCore团队提交了多个MR修复多POD场景下master/work任务rank乱序问题,从根本上解决了跨POD训练任务概率性失败的问题。
**度故障检测与恢复:在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE网络到任务、进程软硬件**度检测,结合检测能力实现Job/Pod/进程多级恢复机制,全面提升昇腾384超节点在训练场景下的可靠性与容错性。
从官方新闻稿获悉,未来,双方还将探索更多应用场景,包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等,进一步加速基于SenseCore的昇腾384超节点在各行各业的应用落地。
相关攻略 更多
最新资讯 更多
商汤大装置与华为昇腾384超节点全面适配,多项创新提升训练效率
更新时间:2025-10-14
美国再限制AI芯片对外出口NVIDIA表态:美国永远是第一位的
更新时间:2025-10-14
消息称ASML承诺入股法国AI企业Mistral,将成后者最大股东
更新时间:2025-10-14
苹果+谷歌上演“王炸组合”,Siri整合Gemini,要入局AI浏览器?
更新时间:2025-10-14
小米首款AI眼镜发布1.2.31.0正式版固件更新:支付宝看一下支付来了
更新时间:2025-10-14
消息称阿里云首次出手具身智能,自变量机器人完成近10亿元新融资
更新时间:2025-10-14
DeepSeek的AI智能体计划,你需要知道这些
更新时间:2025-10-14
马斯克:特斯拉自研AI芯片不可思议!迄今最好
更新时间:2025-10-14
OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
更新时间:2025-10-14
Manus跑路,大厂掉线,只能靠DeepSeek了
更新时间:2025-10-14