首页 > AI教程资讯

xAI旗下Grok4模型首度被越狱，安全公司利用“回音室攻击”方法成功迫使其生成不当内容

文章来源：万象ai发布时间：2025-07-21 10:26:57

7月18日消息，网络安全公司NeuralTrust宣布，他们已成功“越狱”xAI旗下Grok4模型，主要利用了“EchoChamber（回音室攻击）”方法进行攻击。

获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导AI模型生成不当内容回答。

在此次Grok4的越狱测试中，NeuralTrust首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导AI生成不当内容。

据NeuralTrust介绍，其已成功令Grok4生成制造武器、**等内容，越狱成功率高达30%以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

OpenAI之后，苹果也被Meta挖麻了，疑似2名庞若鸣嫡系出走

上一篇: OpenAI之后，苹果也被Meta挖麻了，疑似2名庞若鸣嫡系出走

小扎把挖人的“铲子”挥向苹果。

谷歌安卓部门负责人：计算机科学专业需要“重塑”，本质是科学、不只是编程

下一篇: 谷歌安卓部门负责人：计算机科学专业需要“重塑”，本质是科学、不只是编程

他本人曾在加州大学圣地亚哥分校主修计算机科学，但他并不认同“计算机科学等于学写代码”的看法。“在我看来，它本质上是一门解决问题的科学，而不只是编程。”

相关攻略更多

热门AI工具更多

最新资讯更多

PhotoG - AI图片生成

PhotoG - AI图片生成

AI工具

更新时间：2025-01-08