文章来源:08ai导航网发布时间:2025-08-12 16:26:01
8月11日消息,智谱AI今日推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并同步在魔搭社区与HuggingFace开源。此外,API调用价格低至输入2元/Mtokens,输出6元/Mtokens。
从官方介绍获悉,GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能,涵盖图像、视频、文档理解以及GUIAgent等常见任务。
在多模态榜单之外,其更重视模型在真实场景下的表现与可用性。GLM-4.5V通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:
图像推理(场景理解、复杂多图分析、位置识别)
视频理解(长视频分镜分析、事件识别)
GUI任务(屏幕读取、图标识别、桌面操作辅助)
复杂图表与长文档解析(研报分析、信息提取)
Grounding能力(精准定位视觉元素)
同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。为帮助开发者直观体验GLM-4.5V的模型能力,打造专属于自己的多模态应用,智谱AI同步开源了一款桌面助手应用。
该桌面应用可实时截屏、录屏获取屏幕信息,并依托GLM-4.5V处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。
相关攻略 更多
最新资讯 更多
智谱视觉推理模型GLM-4.5V上线并开源,号称“全球100B级效果最佳”
更新时间:2025-08-12
高通:OpenAI最小开源模型gpt-oss-20b可在骁龙终端运行
更新时间:2025-08-12
世界机器人大会:笨拙的今天,与狂奔的明天
更新时间:2025-08-12
马斯克急了:Grok 4向全球所有用户免费开放
更新时间:2025-08-12
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌
更新时间:2025-08-12
创想三维接入腾讯混元,3D打印进入AI建模时代
更新时间:2025-08-12
英特尔升级多显卡AI推理,Battlematrix整体性能最高提升80%
更新时间:2025-08-12
OpenAIGPT-5编程成绩有猫腻:自删23道测试题,关键基准还是自己提的
更新时间:2025-08-12
刚刚,智谱开源千亿参数视觉大模型,能区分麦当劳肯德基炸鸡,看图猜地点击败99%人类
更新时间:2025-08-12
字节、快手决战AI
更新时间:2025-08-12