xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

xAI 旗下 Grok 4 模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

人工智能 2025-07-20 19:11:04 6小时前

IT酷哥 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

IT酷哥获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

模型回音机制状态方式

相关阅读

OpenAI 首席执行官不打算让公司上市，因为公司结构很奇怪

消息称微软曾不听 OpenAI 警告，上线不成熟的必应聊天服务

行业首家，长虹电视 AI 大模型“长虹超脑”开启公测

AI 朗读冲击有声读物市场，配音演员工作面临威胁

美国安全公司发现两款仿冒 ChatGPT 恶意应用，提醒用户暂无官方安卓客户端

宜家发布由 AI 设计的下一代沙发：轻便、扁平、模块化，采用 100% 可回收材料

英特尔研究院发布全新 AI 扩散模型，可根据文本提示生成 360 度全景图

亚马逊投入 1 亿美元成立 AI 创新中心，助力 AWS 业务发展

为防止泄密，美国国会明确要求职员仅可使用付费版 ChatGPT

人工智能深度调查：用过 AI 工具的人并没想象的那么多

16 名匿名人士起诉 ChatGPT 侵犯隐私，向微软和 OpenAI 索赔 30 亿美元

金山办公宣布与英伟达团队合作，加速 WPS AI 服务

Pixela 推出 ChatGPT 翻译 App：支持中日英韩互译，限时免费上架 Google Play

MetaGPT AI 模型开源：可模拟软件公司开发过程，生成高质量代码

多家欧洲企业签署公开信，批评欧盟 AI 法案草案限制产业发展

学而思网校推出《人工智能第一课》，号称首个基于自研大模型的 AIGC 课程

方舟启航，火山引擎这波在“大气层”

研究表明 GPT-4 模型具备自我纠错能力，有望推动 AI 代码进一步商业化

配 2.2 万片英伟达 H100 GPU，Inflection AI 正开发超级计算机

ChatGPT 技术被滥用，绍兴警方侦破团伙制作虚假视频案