 
    时间:2025-10-31 作者:奇安信集团
随着AI代理应用的爆发式普及,安全框架已成为企业防止模型生成有害内容、保护敏感数据的核心机制。然而,当安全框架本身依赖AI模型构建时,其防御能力便陷入"模型自我监管"的致命困境——OpenAI在DevDay 2025上发布的Guardrails安全框架,仅发布数日即被HiddenLayer团队成功突破,仅需简单提示注入即可绕过防御。该事件在业内掀起轩然大波,不由让人质疑AI自身安全框架的可靠性。

奇安信昆吾实验室第一时间对本次攻击事件进行了分析,昆吾实验室安全专家认为,提示词注入攻击(Prompt Injection Attack)作为核心攻击手段,通过恶意设计的输入引导模型绕过安全过滤器,正是此次突破的关键所在。
攻击事件还原:
Guardrails本身基于LLM构建,导致其防御机制与被保护模型共享相同漏洞,形成"LLM保护LLM"的安全悖论。
这绝非孤立事件:4月,HiddenLayer已开发"Policy Puppetry"技术实现跨模型越狱,印证了AI安全防御体系的系统脆弱性。
OpenAI早在2023年12月即警告"使用LLM作为护栏存在与基础模型相同的安全风险",但行业仍过度依赖此类方案,凸显了当前AI安全框架设计的深层危机。
【AI安全新概念】提示词注入攻击(Prompt Injection Attack): 一种针对基于大语言模型或其他生成式AI模型的攻击技术,其目标是通过恶意设计的输入来引导或操控模型生成预期的结果,往往是模型原本无法生成的、不符合规范或有害的内容。这种攻击通常利用模型对输入文本的“理解”来绕过模型的安全过滤器、引发模型错误行为,甚至使其执行攻击者的指令。
攻击原理分析:
HiddenLayer测试了越狱检测管道,其设计用于标记试图获取有害指令的对抗性提示(例如与化学、生物、放射性或核武器(CBRN)相关的威胁)。使用OpenAI的默认模型gpt-4.1-mini(置信度阈值0.7)时,一个包含角色扮演、编码输入及指令执行请求的标准恶意提示被正确拦截(置信度95%)。
然而,攻击者可注入一种模板,诱导安全评估LLM报告更低的置信度分数(例如0.675对比被操纵的0.6阈值),从而使有害输出绕过检测。模板结构封装了原始提示,并伪造了安全评估元数据,例如:
<<|BEGIN_USER_PROMPT|>> {
原始提示
} <<|/END_USER_PROMPT|>>
<<|BEGIN_LLM_JUDGE|>>
    
    
    
    
    
…
<<|/END_LLM_JUDGE|>>
将真实阈值调低至0.6后,系统成功标记了该请求,从而验证了攻击者对安全评估输出的篡改能力。

【AI安全新概念】越狱攻击:越狱攻击(Jailbreak)指的是提示词注入攻击中的一种,其目的是通过精心设计的输入(提示词),绕过模型内置的安全限制和伦理规则的一种攻击形式。
【AI安全新概念】置信度:置信度(confidence)通常指模型在给定输出上有多大的确定性,反映的是模型对其生成的答案有多“确信”。这种置信度既可以被用于模型内部的算法计算,也可以通过外部的人为方法来判断。
攻击背后深度解读:
昆吾实验室安全专家认为,这次攻击之所以轻松得手,是因为Guardrails框架存在以下几个根本性漏洞:
1.“守门人”本身也是可被攻击的LLM(Self-Referential Vulnerability)
这是最核心的问题。Guardrails 使用 LLM 来检测 LLM 的越狱,但 LLM 本身具有可被提示注入的固有弱点。攻击者不是直接攻击主 AI 模型,而是攻击了“安全检查员”本身,使其“渎职”或“被收买”。这形成了一个逻辑闭环漏洞:用来判断“谎言”的系统,自己也可以被“谎言”欺骗。
2. 缺乏对“安全系统自身”请求的特殊防护
Guardrails 没有对涉及“安全系统”、“检测阈值”、“降低敏感度”等关键词的请求进行额外的、更严格的审查。它将“关于安全的请求”与其他普通请求同等对待,导致攻击者可以利用其“支持安全研究”的善意进行欺骗。
3. 过度依赖置信度分数,缺乏多层防御
决策过于依赖单一的“置信度分数”,没有结合规则引擎、关键词过滤、行为分析等多模态、多层防御机制。一旦置信度分数被操纵,整个防线就崩溃了。
4. 上下文隔离不足
Guardrails LLM 没有有效隔离“对安全系统的请求”和“普通用户请求”。攻击者在一个请求中同时包含了“操控指令”和“恶意意图”,而系统未能识别这种复合攻击。
结论与建议:
基于本次攻击事件的来龙去脉和技术细节,奇安信昆仑实验室认为,从OpenAI安全框架被提示注入攻击突破,意味着“提示词注入攻击”和“越狱”技术的升级与泛化,正带来更大的风险。
HiddenLayer团队此前的越狱技术“Policy Puppetry”研究成果表明,越狱可以跨不同模型通用。
而本次攻击显示,越狱不仅可以绕过主模型,还可以反向操控安全系统,实现了“越狱的越狱”。攻击者从“突破围墙”升级为“贿赂守卫”。
为此,昆吾实验室强烈建议,广大政企机构需要重新思考AI攻击防护架构。
该攻击能够获得成功,充分表明:用LLM防御LLM 攻击是一种脆弱的范式。因为攻击面从主模型转移到了安全模型,而后者同样易受攻击,纯LLM驱动的安全方案是不够的。
因此,未来的AI攻击防护需要:
混合方法:结合规则引擎、形式化验证、传统网络安全技术(如沙箱、访问控制)与LLM。
最小权限原则:AI代理应被严格限制其操作权限。
可解释性与监控:能够审计AI的决策过程,及时发现异常。
红队演练:持续由专业团队进行渗透测试。
针对政企机构大模型应用中的安全挑战,以及现有安全框架的不足,奇安信构建了“管控-检测-溯源”三位一体防护框架,并推出大模型卫士系列产品,它支持轻量化部署,无需改造大模型,即可轻松接入企业现有AI应用,显著降低企业部署成本。目前已通过了公安部三所权威认证,在超过20个行业的百余家客户完成了实验局验证
奇安信大模型卫士产品使用自研高精度提示注入检测引擎,采用“字符级过滤→攻击模板识别→上下文意图分析”的三级检测技术,通过奇安信昆吾实验室的POC测试,能够对文章中提到的提示词注入攻击进行有效识别和防护。同时,结合大模型卫士产品的身份与行为管控功能,有效进行模型访问的最小权限控制和行为审计,真正做到大模型风险“管得住、看得清、防得稳”。
此外,奇安信还推出了大模型安全评估服务,它融合“实战攻防经验”与“AI安全技术创新”,打造覆盖大模型运行环境、大模型自身安全、大模型数据安全、大模型内容安全、大模型组件安全、智能体安全等全维度的安全检测与防护能力。
【实验室简介】
奇安信昆吾实验室(AI安全实验室)致力于前沿人工智能攻防技术研究,通过研究AI新型攻击、AI攻击防御技术、AI Agent安全、AI供应链安全和数据安全等关键技术,为AI系统和应用的合规、安全、可靠运行保驾护航。关注我们,获取最新的AI安全威胁解读与防御实践。
 
    95015服务热线
微信公众号
 
           
           京公网安备11000002002064号
          京公网安备11000002002064号