文章来源:08ai导航网发布时间:2025-08-19 10:40:21
北京时间今天凌晨,Kimi 与清华大学合作研发的 Mooncake 项目技术报告获得计算机存储领域顶会 FAST 2025「最佳论文」奖。
论文第一作者秦若愚同学现场分享,目前在Kimi实习
Mooncake 是月之暗面 Kimi 的底层推理服务平台。该平台采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了 GPU 集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache。Mooncake 的核心是其以 KVCache 为中心的全局缓存和调度器,旨在在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。
实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提高了59%~498%。目前,Mooncake已在数千个节点上运行,每天处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi 在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。
简单来说,自从有了Mooncake,在业务高峰期“Kimi 累了”的情况出现得越来越少。
“2024年6月,Mooncake技术报告公开之后,感受到产业界和社区的热情,我们沿两条路线分别向前推进Mooncake的发展和推广。在Kimi内部,Mooncake被应用于包括Kimi k1.5的强化学习训练加速、多模态服务等场景,不断推进智能降本的前沿。而在另一方面,Mooncake团队联合众多的外部力量开始开源版本的设计和重新实现计划。”Mooncake论文作者之一,清华大学MADSys实验室章明星助理教授分享了Mooncake的发展计划。
2024年11月,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft、阿里云、华为存储、面壁智能、趋境科技等机构启动了Mooncake开源计划,第一步开源了 Mooncake Transfer Engine。
今天,Mooncake团队还和vLLM团队共同宣布,已经合作制定一个多阶段路线图,将为vLLM引入P/D(Prefill/Decode)分解和全局 KVCache 设计,把 Mooncake的创新性KVCache中心架构引入更多开源社区。
了解更多
Github项目地址:https://github.com/kvcache-ai/Mooncake
Paper 地址:https://arxiv.org/abs/2407.00079
相关攻略 更多
最新资讯 更多
今天,Mooncake获得FAST2025「最佳论文」
更新时间:2025-08-19
刚刚,GPT-4.5震撼上线情商逆天!OpenAI最大最贵模型最像人类,奥特曼带娃缺席
更新时间:2025-08-19
用DeepSeek帮医院做临床试验,「新视焰」获数千万元A+轮融资|36氪首发
更新时间:2025-08-19
小米AI眼镜,为什么肯定不能卖「999」?
更新时间:2025-08-19
DeepSeek会是时代的破壁人吗?追问专访|上交大副教授林洲汉
更新时间:2025-08-19
被Github上的StableDiffusion坑惨了?失业、欠帐、恐慌,工程师怒喷:AI软件毁了我
更新时间:2025-08-19
我已确诊为“DeepSeek人格”:勿扰
更新时间:2025-08-19
前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型
更新时间:2025-08-19
DeepSeek第五弹炸裂收官!开源全新并行文件系统,榨干SSD全部带宽
更新时间:2025-08-19
刚刚,GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会
更新时间:2025-08-19