业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署

业界首个:腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署

人工智能 2025-06-29 12:12:03 5天前

IT酷哥 6 月 27 日消息,腾讯混元大模型家族今日宣布迎来新成员 —— 混元-A13B 模型发布并开源,号称是“业界首个 13B 级别的 MoE 开源混合推理模型”。

混元-A13B 作为基于专家混合(MoE)架构的大模型,总参数 800 亿、激活参数 130 亿,号称“在效果比肩顶尖开源模型的同时,大幅降低推理延迟与计算开销”。

腾讯混元表示,这对个人开发者和中小企业来说,无疑是个好消息,极端条件下仅需 1 张中低端 GPU 卡即可部署。用户可以在 Github、HuggingFace 等技术社区下载使用,模型 API 已在腾讯云官网上线。

混元-A13B 模型通过 MoE 架构,为每个输入选择性地激活相关模型组件,号称与同等规模的密集模型相比“又快又省”,而且为个人开发者和中小企业提供了一个“可扩展且高效的替代方案”。

预训练中,模型用了 20 万亿高质量网络词元语料库,提升了模型推理能力的上限;完善了 MoE 架构的 Scaling Law(即规模定律)理论体系,为 MoE 架构设计提供了可量化的工程化指导,提升了模型预训练效果。

用户可以按需选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考模式涉及更深、更全面的推理步骤。这优化了计算资源分配,兼顾效率和准确性。

混元还开源了两个新数据集,以填补行业内相关评估标准的空白。其中,ArtifactsBench 主要用于代码评估,构建了一个包含 1825 个任务的新基准;C3-Bench 针对 Agent 场景模型评估,设计了 1024 条测试数据,以发现模型能力的不足。

从具体效果来看,数学推理方面,例如输入“9.11 和 9.9 谁大”,模型可准确完成小数比较,并展现分步解析能力。

对于时下热门的智能体(Agent)应用,模型可调用工具,生成出行攻略、数据文件分析等复杂指令响应。

再看数据和效果。在多个公开数据测试集上,模型在数学、科学和逻辑推理任务上表现出“领先效果”。

IT酷哥附开源地址:

https://github.com/Tencent-Hunyuan/Hunyuan-A13B

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 调查显示人工智能开始夺走人类工作岗位,5 月份美国近 4000 人因此失业
  • 网易云音乐和小冰联合推出 AI 歌手音乐创作软件,首发内置 12 名 AI 歌手
  • 消息称东盟正起草 AI 监管法案:新加坡牵头,最快今年底完成
  • 美国安全公司发现两款仿冒 ChatGPT 恶意应用,提醒用户暂无官方安卓客户端
  • 科学家利用 AI 识别热门歌曲,准确率高达 97%
  • 波音宣布与日本航空合作,用 AI 排查 787 梦想客机零件老化和故障迹象
  • Dropbox 网盘推出 AI 搜索工具 Dropbox Dash:聚合多办公平台,可视化管理工作任务
  • AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • 谷歌 DeepMind 自曝正开发新型 AI 模型 Gemini,号称“比 GPT-4 强”
  • iOS 版 ChatGPT 集成必应搜索功能,仅限付费订阅者使用
  • 香港电台推出 AI 天气主播 Aida,表情、动作均由电脑合成
  • 金融巨头瑞穗银行押注生成式 AI,开放 Azure OpenAI 给 4.5 万名员工使用
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • 微软英伟达参投,OpenAI 竞争对手 Inflection AI 获 13 亿美元融资
  • “商汤如影 SenseAvatar” 数字人视频生成平台上线,支持定制形象、声音克隆、创作视频等功能
  • MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码
  • 多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
  • “世界上最像人的机器人”Ameca 接入 Stable Diffusion 和 GPT-3,现场完成作画
  • 最新资讯

    热门资讯