文章来源:万象ai发布时间:2025-07-10 13:45:57
为满足大模型产业化落地选型测试和能力监测需求,中国信通院于“2024中国信通院ICT深度观察研究成果报告会”上发布大模型评测体系“方升”,旨在建立业界大模型基准测试统一的“度量衡”,规范大模型产业发展。
甲骨易是中国信通院“方升”大模型基准测试首批合作伙伴,携手共建“通用幻觉基准测试集”,获得中国信通院“大模型基准测试体系合作伙伴”证书,共同致力于加快构适产业界适用于中文大模型全面、客观、统一、规范的大模型基准测试体系。
中国信通院称,“方升”能够合理解决模型评测规则混乱、距离应用场景较远等亟待解决的问题,从四个维度对大模型进行全面、客观、统一的评估。“方升”测试体系测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万。此次中国信通院联合甲骨易等产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个,使中文大模型能更好地产业智能化落地,加速大模型与产业融合。
随着大模型快速发展,其带来的真假难辨的“幻觉”和虚假信息难以检测等影响大模型落地的问题一直被人们关注。甲骨易在深入布局全球智能语言服务生态的同时,将全球多语言本地化能力平移到数据服务领域,成立甲骨易AI研究院(甲骨易AI Lab),推出中文大模型评测体系LucyEval,在全球业内率先发布基于中文多任务理解能力测试集,后续再次首发中文大模型多学科生成能力评测,开创性地将大模型成熟度评测维度从通识评测转向业务场景评测,通过深化对中文大模型的能力评测,帮助中文大模型提升全球竞争力。

甲骨易获得中国信通院“大模型基准测试体系合作伙伴”证书
在发布LucyEval时甲骨易就曾表示:“如何最快速地判断机器是否能正确理解人类的知识和语言是我们共同关注的问题。甲骨易AI研究院希望通过LucyEval对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加精准地调整、训练模型,助力大模型不断迈向更智能的未来。”
甲骨易始终坚持以高质量数据加快模型在应用场景下的智能化进程,以人工智能关键技术作为企业数字化转型的核心驱动力。甲骨易坚信通过此次与中国信通院联合发布的幻觉基准测试集,能够帮助中文大模型更好地对抗幻觉,实现真正的人模共生。
相关攻略 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
最新资讯 更多
OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式
更新时间:2025-07-25
爆款AI视频越来越多,但本质我觉得跟炒股没区别。
更新时间:2025-07-25
Cursor+Claude的SVG图片生成功能,强到离谱,强烈建议写PPT没思路的时候买个会员
更新时间:2025-07-25
超20万人使用!最强开源浏览器Workflow插件【内置3300+模版】效率又起飞了~
更新时间:2025-07-25
营销获客AI公司Clay,花7年找到PMF后,快速实现10倍增长的秘密
更新时间:2025-07-25
5天连发5个王炸!MiniMax这波发布周把OpenAI都整懵了|MiniMax发布周回顾
更新时间:2025-07-25
AI应用行业全景洞察丨中国丨2025年5月丨万字诚作丨Xsignal
更新时间:2025-07-25
数字疗法AI医疗独角兽SwordHealth再融4000万,估值冲至40亿美元背后的战略棋局
更新时间:2025-07-25
宁德时代领投,「银河通用」完成超10亿元新一轮融资
更新时间:2025-07-25
【译】万字长文解读:生成式AI的21个设计模式、示例及应用策略
更新时间:2025-07-25