GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

人工智能 2023-07-16 17:02:02 1年以前

IT酷哥 7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。

▲ 图源Semianalysis

外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。

IT酷哥注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

▲ 图源Semianalysis

据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。

对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 新加坡副总理:AI 会颠覆劳动力市场,但不会导致就业机会消失
  • 家乐福推出采用 GPT-4 模型的 Hopla 购物资讯机器人 ,可一键规划预算、设计食谱
  • 微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
  • Stack Overflow 发布 2023 年度报告:JavaScript 位列榜首,83% 的人用过 ChatGPT
  • 折腾十年,扎克伯格痛失 AI 好局
  • OpenAI CTO 揭晓 ChatGPT 内幕,原本只是一个研究示范项目
  • 印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
  • 软银 CEO 孙正义称每天都会使用 ChatGPT,是生成式 AI 服务的“忠实用户”
  • 美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
  • YouTube 测试 Aloud 人工智能配音功能,可将视频转述为不同语言
  • Dropbox 网盘推出 AI 搜索工具 Dropbox Dash:聚合多办公平台,可视化管理工作任务
  • Stability AI 推出文字生成图片模型 SDXL 0.9,硬件要求下探至消费级 GPU 水平
  • AI 作画工具 Midjourney 迎来 5.2 版本更新,可生成相机“变焦效果”
  • 微软用 AI 缩短癌症放疗时间:扫描速度提高 2.5 倍,准确率达 90%
  • 香港电台推出 AI 天气主播 Aida,表情、动作均由电脑合成
  • 人工智能深度调查:用过 AI 工具的人并没想象的那么多
  • 英伟达联手 Snowflake:卖出更多芯片,帮助企业客户建立自己的 AI 模型
  • Meta 将提高 AI 算法应用透明度,向用户提供详细说明和更多选择
  • 中国电信公布 TeleChat 大模型,宣称将建立“百亿级 AI 服务商”
  • 中国团队推出脑电图图像生成模型 DreamDiffusion,清华、腾讯参与研究
  • 最新资讯

    热门资讯