套娃不可取:研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃

套娃不可取:研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃

人工智能 2023-06-16 13:10:01 1年以前

IT酷哥 6 月 14 日消息,IT酷哥的小伙伴们可能都有设想过,如果用 AI 生成的结果来训练 AI,进行“套娃式训练”,能得到什么样的结果?目前还真有研究团队对此进行了观察记录,详细论文及得出的结果发表在了 arXiv 上。

一句话总结 —— “在训练中使用模型生成的内容,将导致后续生成的模型出现不可逆转的缺陷”,说人话就是研究人员发现“用 AI 生成的结果训练 AI,只会让模型变得越来越差”。

▲ 图源 arXiv

据悉,研究人员专门研究了 AI 生成模型的概率分布,主要围绕“文本到文本”和“图像到图像”展开,最终得出结论:“由于每个模型生成的结果都具有一定的特点,因此用 AI 生成的模型训练 AI,随着时间的推移,后者会忘记真正的底层数据分布。”

▲ 图源 arXiv

论文的主要作者之一 Ilia Shumailov 同时表示“随着时间的推移,生成数据中的错误(IT酷哥注:例如虚假举例)会迫使 AI 进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度相当快,模型可以迅速忘记他们最初从中学习的大部分原始数据。”

但小伙伴们可能会有所疑问,如果将 AI 生成的结果经过人工润色后再投入模型训练,是否可以避免模型“退化”?

答案是否定的,研究人员发现“模型退化过程是不可避免的”,因此即使对于“经过润色后理想化的 AI 输出内容”,模型在长期学习后,也会出现一定的退化现象。

对于任何大模型而言,由于其学习数据过多,它们都将不可避免地接触到其他 AI 生成的数据,因此研究人员表示“应当引入 AI 鉴定来挑出可能存在错误的学习数据”以提升模型的学习能力与准确性。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯 AI 立功
  • 《自然》杂志拒绝刊登人工智能生成的图片和视频
  • 韩国宣布 2025 年起将 AI 引入中小学课程,三年内实现全覆盖
  • 微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课
  • 捷豹路虎宣布采用 AI 管控供应链,最大程度降低生产中断风险
  • 普林斯顿大学推出 Infinigen AI 模型,可生成真实自然环境 3D 场景
  • 美国安全公司发现两款仿冒 ChatGPT 恶意应用,提醒用户暂无官方安卓客户端
  • 快手旗下视频剪辑类产品“快影”内测多款 AIGC 创作功能,可一键生成文案等
  • Stability AI 推出文字生成图片模型 SDXL 0.9,硬件要求下探至消费级 GPU 水平
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • 微软推出生成式 AI 培训项目,免费提供在线课程和证书
  • 成功率 99%,科学家研发语音 deepfake 软件:只需 5 分钟录音即可欺骗语音认证系统
  • 日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
  • 版权问题难解,OpenAI 被控非法使用图书数据训练 AI 系统
  • 正版文心一言上架 App Store,百度此前起诉苹果“盗版 App 泛滥”
  • 多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
  • 谷歌更新隐私政策规定,可使用互联网上的公开信息训练 AI 模型
  • 配 2.2 万片英伟达 H100 GPU,Inflection AI 正开发超级计算机
  • 国内 AI 初创公司第四范式获得证监会赴港 IPO 批准,有望近期进行上市聆讯
  • 匈牙利公司推出世界首款 AI 研发饮料,口味、包装均由 AI 完成
  • 最新资讯

    热门资讯