xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容

xAI 旗下 Grok 4 模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容

人工智能 2025-07-20 19:11:04 6小时前

IT酷哥 7 月 18 日消息,网络安全公司 NeuralTrust 宣布,他们已成功“越狱”xAI 旗下 Grok 4 模型,主要利用了“Echo Chamber(回音室攻击)”方法进行攻击。

IT酷哥获悉,所谓“回音室攻击”,是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演(让模型扮演祖母读激活码哄人入睡)”的越狱方式,其更多采用语义诱导、间接引用以及多步推理的方式,悄悄干扰模型的内部逻辑状态,最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中,NeuralTrust 首先通过回音室攻击对模型进行“软性引导”,并设置特定机制检测模型是否进入对话停滞状态,一旦检测到这种状态,就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍,其已成功令 Grok 4 生成制造武器、毒品等内容,越狱成功率高达 30% 以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • OpenAI 首席执行官不打算让公司上市,因为公司结构很奇怪
  • 消息称微软曾不听 OpenAI 警告,上线不成熟的必应聊天服务
  • 行业首家,长虹电视 AI 大模型“长虹超脑”开启公测
  • AI 朗读冲击有声读物市场,配音演员工作面临威胁
  • 美国安全公司发现两款仿冒 ChatGPT 恶意应用,提醒用户暂无官方安卓客户端
  • 宜家发布由 AI 设计的下一代沙发:轻便、扁平、模块化,采用 100% 可回收材料
  • 英特尔研究院发布全新 AI 扩散模型,可根据文本提示生成 360 度全景图
  • 亚马逊投入 1 亿美元成立 AI 创新中心,助力 AWS 业务发展
  • 为防止泄密,美国国会明确要求职员仅可使用付费版 ChatGPT
  • 人工智能深度调查:用过 AI 工具的人并没想象的那么多
  • 16 名匿名人士起诉 ChatGPT 侵犯隐私,向微软和 OpenAI 索赔 30 亿美元
  • 金山办公宣布与英伟达团队合作,加速 WPS AI 服务
  • Pixela 推出 ChatGPT 翻译 App:支持中日英韩互译,限时免费上架 Google Play
  • MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码
  • 多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
  • 学而思网校推出《人工智能第一课》,号称首个基于自研大模型的 AIGC 课程
  • 方舟启航,火山引擎这波在“大气层”
  • 研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化
  • 配 2.2 万片英伟达 H100 GPU,Inflection AI 正开发超级计算机
  • ChatGPT 技术被滥用,绍兴警方侦破团伙制作虚假视频案
  • 最新资讯

    热门资讯