文章来源:万象ai发布时间:2025-03-17 10:20:49
赤兔(Chitu)是由清华大学团队开源的一个高性能大语言模型推理框架,专注于提升推理效率、降低成本,并支持多种硬件平台和部署场景。它可以让DeepSeek推理成本降一半,性能翻番。赤兔(Chitu)的目标是为企业和开发者提供一个高效、灵活且易于部署的推理引擎,加速大语言模型(LLM)在实际应用中的落地。

多元算力适配:支持 NVIDIA 最新旗舰到旧款的多系列产品,并为国产芯片提供优化支持。
全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,提供灵活的可扩展解决方案。
长期稳定运行:适用于实际生产环境,能够稳定承载并发业务流量。
高效推理性能:在 A800 集群测试中,相比部分国外开源框架,GPU 使用量减少 50% 的情况下推理速度提升 3.15 倍。
降低成本:通过优化硬件资源使用,降低了企业部署 ai 模型的门槛和成本。
企业级 AI 应用:需要高性能、低延迟和高吞吐量的推理服务。
大规模集群部署:需要在多 GPU 或多节点环境中高效运行的场景。
资源受限的环境:需要在有限的硬件资源下实现高效推理的场景。
国产芯片适配:需要在国产硬件平台上运行大语言模型的场景。
1. 源码安装
gitclone--recursivehttps://github.com/thu-pacman/chitu&&cdchitupipinstall-rrequirements-build.txtpipinstall-Utorch--index-urlhttps://download.pytorch.org/whl/cu124#根据CUDA版本调整TORCH_CUDA_ARCH_LIST=8.6CHITU_SETUP_JOBS=4MAX_JOBS=4pipinstall--no-build-isolation2.单 GPU 推理
torchrun--nproc_per_node8test/single_req_test.pyrequest.max_new_tokens=64models=DeepSeek-R1models.ckpt_dir=/data/DeepSeek-R1infer.pp_size=1infer.tp_size=83.混合并行 (TP+PP)
torchrun--nnodes2--nproc_per_node8test/single_req_test.pyrequest.max_new_tokens=64infer.pp_size=2infer.tp_size=8models=DeepSeek-R1models.ckpt_dir=/data/DeepSeek-R14.启动服务
exportWORLD_SIZE=8torchrun--nnodes1--nproc_per_node8--master_port=22525example/serve.pyserve.port=21002infer.stop_with_eos=Falseinfer.cache_type=pagedinfer.pp_size=1infer.tp_size=8models=DeepSeek-R1models.ckpt_dir=/data/DeepSeek-R1keep_dtype_in_checkpoint=Trueinfer.mla_absorb=absorb-without-precompinfer.soft_fp8=Trueinfer.do_load=Trueinfer.max_reqs=1scheduler.prefill_first.num_tasks=100infer.max_seq_len=4096 equest.max_new_tokens=100infer.use_cuda_graph=True5.性能测试
pythonbenchmarks/benchmark_serving.py--model"deepseek-r1"--iterations10--seq-len10--warmup3--base-urlhttp://localhost:21002GitHub仓库:https://github.com/thu-pacman/chitu
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25