AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头

人工智能 2023-06-27 14:01:02 1年以前

IT酷哥 6 月 25 日消息,AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,该模型具有 300 亿参数,训练成本“仅有其他同类竞品模型的零头”,有望促进行业逐步降低此类模型训练成本,扩大 AI 模型在更广泛领域的运用。

▲ 图源 MosaicML

MosaicML 公司的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元(约 502.44 万元人民币),远低于 GPT-3 等同类产品所需的数千万美元训练成本。此外,由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并且更适合部署在本地硬件上。

据悉,MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的更高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往成果,当下每块 GPU 的吞吐量增加了 2.4 倍以上,可带来更快的完成时间。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量并提高模型性能。他们目前正在开发一款工具,可以帮助用户在预训练过程中分层加入特定领域的数据,以确保训练中开业实现多样化和高质量的数据组合。

MosaicML 公司表示,将模型扩展到 300 亿参数只是第一步,接下来他们将以降低成本为前提,推出体积更大、质量更高的模型。

IT酷哥注意到,目前开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在本地硬件上使用自己的数据,对模型进行微调。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 新加坡国立大学发布 AI 算数模型 GOAT,能力居于 GPT-4 之上
  • 消息称 ChatGPT 本可更强,GPU 短缺成最大阻碍
  • 韩国宣布 2025 年起将 AI 引入中小学课程,三年内实现全覆盖
  • 快手旗下视频剪辑类产品“快影”内测多款 AIGC 创作功能,可一键生成文案等
  • 腾讯首次披露行业大模型进展:不追求参数高,希望成本预算可控
  • 金融巨头瑞穗银行押注生成式 AI,开放 Azure OpenAI 给 4.5 万名员工使用
  • 英伟达联手 Snowflake:卖出更多芯片,帮助企业客户建立自己的 AI 模型
  • 微软推出 ZeRO++ 技术,可显著减少 AI 大模型训练时间和成本
  • 中国电信公布 TeleChat 大模型,宣称将建立“百亿级 AI 服务商”
  • 中国团队推出脑电图图像生成模型 DreamDiffusion,清华、腾讯参与研究
  • 匈牙利公司推出世界首款 AI 研发饮料,口味、包装均由 AI 完成
  • 亚马逊 Kindle 自助出版功能被滥用,AI 生成的书籍泛滥
  • 必应聊天将推出“#nosearch”功能:禁用网络搜索,直达精准答案
  • 格莱美 CEO 解释 AI 新规:愿意接纳新技术,包含 AI 要素作品也可获提名
  • 热度过去用户兴趣降低:数据显示 ChatGPT 流量在 6 月首次出现下降
  • 《自然》杂志正刊发表华为云旗下盘古气象大模型研究成果,天气预报更精准
  • WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载
  • 陈天桥再投 10 亿元支持 AI 脑科学,筹建睡眠梦境、抗衰老等前沿实验室
  • OpenAI 组建新团队,以解决控制超智能 AI 的核心技术挑战
  • 精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对诈骗
  • 最新资讯

    热门资讯