套娃不可取:研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃

套娃不可取:研究人员证实用 AI 生成的结果训练 AI 将导致模型退化乃至崩溃

人工智能 2023-06-16 13:10:01 1年以前

IT酷哥 6 月 14 日消息,IT酷哥的小伙伴们可能都有设想过,如果用 AI 生成的结果来训练 AI,进行“套娃式训练”,能得到什么样的结果?目前还真有研究团队对此进行了观察记录,详细论文及得出的结果发表在了 arXiv 上。

一句话总结 —— “在训练中使用模型生成的内容,将导致后续生成的模型出现不可逆转的缺陷”,说人话就是研究人员发现“用 AI 生成的结果训练 AI,只会让模型变得越来越差”。

▲ 图源 arXiv

据悉,研究人员专门研究了 AI 生成模型的概率分布,主要围绕“文本到文本”和“图像到图像”展开,最终得出结论:“由于每个模型生成的结果都具有一定的特点,因此用 AI 生成的模型训练 AI,随着时间的推移,后者会忘记真正的底层数据分布。”

▲ 图源 arXiv

论文的主要作者之一 Ilia Shumailov 同时表示“随着时间的推移,生成数据中的错误(IT酷哥注:例如虚假举例)会迫使 AI 进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度相当快,模型可以迅速忘记他们最初从中学习的大部分原始数据。”

但小伙伴们可能会有所疑问,如果将 AI 生成的结果经过人工润色后再投入模型训练,是否可以避免模型“退化”?

答案是否定的,研究人员发现“模型退化过程是不可避免的”,因此即使对于“经过润色后理想化的 AI 输出内容”,模型在长期学习后,也会出现一定的退化现象。

对于任何大模型而言,由于其学习数据过多,它们都将不可避免地接触到其他 AI 生成的数据,因此研究人员表示“应当引入 AI 鉴定来挑出可能存在错误的学习数据”以提升模型的学习能力与准确性。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 李开复:AI 2.0 制造虚假信息的缺陷不能完全被杜绝
  • 《瞬息全宇宙》幕后特效公司 Runway 推出 AI 模型 Gen-2,可根据提示词生成逼真视频
  • OpenAI CEO:目前开源不是最佳路径,不会很快有 GPT-5
  • 微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析
  • 使用自然语言,纽约大学团队利用聊天机器人 ChatGPT 从零设计出微处理器
  • 普林斯顿大学推出 Infinigen AI 模型,可生成真实自然环境 3D 场景
  • 你的工作未来由人工智能决定,报告称明年 43% 的企业部署 AI 面试
  • 阿里、腾讯、字节、美团内部算法名单公开,网信办发布深度合成服务备案信息
  • 语音生成 AI 初创公司 ElevenLabs 发布合成语音检测工具,号称准确率超过 99%
  • AI 公司 Databricks 推出人工智能模型共享机制,可令开发者与公司实现“双赢”
  • AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真
  • AI 作画工具 Midjourney 迎来 5.2 版本更新,可生成相机“变焦效果”
  • AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B,号称训练成本仅为竞品零头
  • 英伟达赚翻了,甲骨文今年将斥资数十亿美元买 GPU 发力 AI 云服务
  • 微软用 AI 缩短癌症放疗时间:扫描速度提高 2.5 倍,准确率达 90%
  • Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
  • 美国银行分析师:聊天机器人中 ChatGPT 占据最大优势,过半用户会为其付费服务买单
  • 金融巨头瑞穗银行押注生成式 AI,开放 Azure OpenAI 给 4.5 万名员工使用
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 内置 AI 助手 Copilot 上线:微软 Win11 Dev 预览版 Build 23493 发布,设置、音量大改
  • 最新资讯

    热门资讯