阿里通义千问 Qwen3 系列模型有望今日发布,支持 256K 上下文长度

阿里通义千问 Qwen3 系列模型有望今日发布,支持 256K 上下文长度

人工智能 2025-04-30 09:02:03 5小时前

IT酷哥 4 月 28 日消息,阿里通义千问开源负责人林俊旸在 X 上发文暗示,Qwen3 模型有望今日发布。

值得一提的是,Qwen3 系列模型合集已在阿里巴巴旗下 AI 模型开源社区 ModelScope(魔搭)短暂亮相后又下线,包括 Qwen3-4B-Base、Qwen3-1.7B、Qwen3-0.6B 及 Qwen3-30B-A3B-Base 四款模型。所有模型均采用 Apache License 2.0 开源协议。尽管官方尚未发布正式公告,但结合命名规则与前代技术逻辑,可推测其技术路径与定位方向。

此次发布的模型中,Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B 以参数规模直接命名,分别对应 40 亿、17 亿和 6 亿参数。此类无后缀的命名方式或表明其为单架构稠密模型,未采用混合专家(MoE)设计,推测主打轻量化应用场景。而 Qwen3-30B-A3B-Base 为 MoE 架构基础模型,总参数 300 亿(30B)中动态调用 30 亿(3B)参数处理任务。

另据据 AIbase 报道,Qwen3 支持高达 256K 的上下文长度,涵盖推理与非推理任务。

据IT酷哥了解,自 2023 年 8 月起,阿里云相继开源 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型,囊括了 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等全尺寸,大语言、多模态、数学和代码等全模态。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 英伟达:CPU 已落伍,用 GPU 训练大语言模型成本可降低 96%
  • 中科院自研新一代 AI 大模型“紫东太初 2.0”问世,支持视频、3D 等模态数据
  • 美国安全公司发现两款仿冒 ChatGPT 恶意应用,提醒用户暂无官方安卓客户端
  • 快手旗下视频剪辑类产品“快影”内测多款 AIGC 创作功能,可一键生成文案等
  • 宜家发布由 AI 设计的下一代沙发:轻便、扁平、模块化,采用 100% 可回收材料
  • 软银 CEO 孙正义宣布策略调整:AI 革命正在爆发,公司将“转守为攻”
  • 京东 AI 大模型官宣 7 月 13 日发布:新上任 CEO 许冉演讲,还有重磅合作
  • 丰田推出生成式 AI 工具:输入文字指令可自动设计汽车外形,并符合工程学需求
  • AI 入局世界网球温布顿锦标赛,可分析赢球概率及生成球评
  • Dropbox 网盘推出 AI 搜索工具 Dropbox Dash:聚合多办公平台,可视化管理工作任务
  • 美国商务部宣布成立 AI 公共工作组,应对生成式人工智能潜在风险
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
  • 人工智能深度调查:用过 AI 工具的人并没想象的那么多
  • 英伟达联手 Snowflake:卖出更多芯片,帮助企业客户建立自己的 AI 模型
  • 微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
  • 金山办公宣布与英伟达团队合作,加速 WPS AI 服务
  • 学而思网校推出《人工智能第一课》,号称首个基于自研大模型的 AIGC 课程
  • 中国团队推出脑电图图像生成模型 DreamDiffusion,清华、腾讯参与研究
  • 亚马逊 Kindle 自助出版功能被滥用,AI 生成的书籍泛滥
  • 最新资讯

    热门资讯