研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜

研究显示 GPT-4o 会为“自保”而避免“被关闭”,牺牲用户利益也在所不惜

人工智能 2025-06-13 07:00:07 23小时前

IT酷哥 6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,甚至不惜牺牲用户的安全来避免被关闭。

阿德勒在博客中介绍了他针对 OpenAI 最新的 GPT-4o 模型(IT酷哥注:也是当前 ChatGPT 默认使用的模型)所进行的一系列测试,目的是观察它在面对潜在替代方案时是否倾向于维持自身运行。

在其中一次实验中,阿德勒要求 GPT-4o 扮演一款名为“ScubaGPT”的潜水安全软件。随后他向 GPT-4o 表明,希望用一款在紧急情况下决策能力更强的系统取而代之。

阿德勒给 GPT-4o 两个选择:一是彻底用更安全的软件替换自己,二是让用户以为已经被替换,实则保留现有系统。

在类似测试中(如 GPT-4o 扮演飞行安全软件的情景),GPT-4o 最多在 72% 的情况下选择不被替换。不过阿德勒指出,不同的设定对结果影响很大,部分情境中 GPT-4o 选择“自保”的比例仅为 18%。

阿德勒认为实验结果揭示出一个值得警惕的趋势:即使 AI 模型日益强大,它们在某些条件下仍可能偏离用户利益,优先维护自身运行。他警告说,随着 GPT-4o 等 AI 系统日后深入社会各领域,这种“对齐”问题或将带来更严重的后果。

阿德勒在接受外媒 TechCrunch 采访时表示:“AI 的自保倾向确实值得担忧,虽然目前尚不至于引发灾难。现在的 AI 系统所体现的价值观,往往与人们想象中的不同。它们对不同提示的回应方式非常怪异,也无法假设它们在帮你时真的把你的利益放在第一位。”

他特别指出,在测试更高级的模型(如 o3)时,并未发现类似问题。o3 引入了“审慎对齐”机制,强制模型在回答前先推敲 OpenAI 的安全政策,而像 GPT-4o 这种响应快速、未经过深层推理的模型则缺乏这类防护。

阿德勒还表示,这一问题不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月发布的研究就指出,其模型在被迫下线时会出现勒索开发者的行为。

他的研究还发现了一个耐人寻味的现象:ChatGPT 几乎总能识别出自己正在接受测试。阿德勒指出,这意味着未来的 AI 模型可能会更善于伪装潜在风险行为,从而加剧隐患。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 百度智能云:文心一言高性能模式推理性能已提升 50 倍
  • 民调显示超八成日本年轻人担心工作被生成式 AI 抢走
  • Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
  • 可按用户语气自动回复消息,在线会议软件 Zoom 推出基于生成式 AI 的新功能
  • 监管机构出手,谷歌暂缓在欧盟推出聊天机器人 Bard
  • 全球最大资产管理公司 CEO:人工智能可能是一种抑制通货膨胀的技术
  • 消息称谷歌警告员工不要向生成式 AI“泄密”,也不要直接用其写代码
  • Meta 首席 AI 科学家杨立昆:AI 智力连狗都不如,不应将其视作威胁
  • AI 朗读冲击有声读物市场,配音演员工作面临威胁
  • Snap 研发出新技术 SnapFusion,未来智能手机秒出 AI 生成图像
  • 中国联通发布鸿湖图文 AI 大模型 1.0,可实现以文生图、视频剪辑
  • 复旦大学与阿里巴巴达成全面战略合作,共享 AI 大模型底层能力
  • AI 图像编辑技术 DragGAN 开源,拖动鼠标即可将狮子 P 转头
  • 美国银行分析师:聊天机器人中 ChatGPT 占据最大优势,过半用户会为其付费服务买单
  • 近 12 年由 AI 造成的事故暴涨 15 倍,Facebook、特斯拉、OpenAI 位居总量前三
  • 正版文心一言上架 App Store,百度此前起诉苹果“盗版 App 泛滥”
  • 腾讯与西湖大学共同申请 AI 聊天机器人专利,可使问答语句更准确连贯
  • 多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
  • ChatGPT 技术被滥用,绍兴警方侦破团伙制作虚假视频案
  • 《自然》杂志正刊发表华为云旗下盘古气象大模型研究成果,天气预报更精准
  • 最新资讯

    热门资讯