智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”

智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”

人工智能 2025-08-13 10:11:04 3小时前

IT酷哥 8 月 11 日消息,智谱 AI 今日推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。此外,API 调用价格低至输入 2 元 / M tokens,输出 6 元 / M tokens。

IT酷哥从官方介绍获悉,GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

在多模态榜单之外,其更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:

图像推理(场景理解、复杂多图分析、位置识别)

视频理解(长视频分镜分析、事件识别)

GUI 任务(屏幕读取、图标识别、桌面操作辅助)

复杂图表与长文档解析(研报分析、信息提取)

Grounding 能力(精准定位视觉元素)

同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,智谱 AI 同步开源了一款桌面助手应用。

该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和 API 服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 日本横须贺市宣布“第一个吃螃蟹”,开始在日常行政中使用 ChatGPT
  • 《黑镜》主创坦言曾试用 ChatGPT 编写剧本,但效果不理想
  • 华硕董事长施崇棠:我们的 AI 不像 ChatGPT,更像安卓平台
  • 报告称 70% 程序员已使用各种 AI 工具编程
  • 笔神作文称学而思 AI 大模型盗窃其数据,后者回应称调用均与合同要求相符
  • 美国心理学会:经常接触 AI 的员工更容易孤独,增加疾病风险
  • 赛博手冢治虫:GPT-4 将参与漫画《怪医黑杰克》续作创作过程
  • 软银 CEO 孙正义称每天都会使用 ChatGPT,是生成式 AI 服务的“忠实用户”
  • 全球首个 AI 广播频道公司完成 1900 万美元融资,开发无障碍及游戏 NPC 技术
  • 美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
  • AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
  • AI 作画工具 Midjourney 迎来 5.2 版本更新,可生成相机“变焦效果”
  • AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头
  • 开源模型 PrivateGPT 上线,可本地搭建、避免信息外泄
  • 科大讯飞星火 AI 大模型出海东南亚,将在新加坡实施“1+4”战略
  • 微软推出生成式 AI 培训项目,免费提供在线课程和证书
  • 特斯拉人形机器人将于 7 月亮相上海 2023 世界人工智能大会
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • 腾讯与西湖大学共同申请 AI 聊天机器人专利,可使问答语句更准确连贯
  • Pixela 推出 ChatGPT 翻译 App:支持中日英韩互译,限时免费上架 Google Play
  • 最新资讯

    热门资讯