分类 · 技术研究
当越狱攻击遇上护栏体系:一次更接近真实世界的评估
越狱攻击对加了护栏的模型的攻击成功率如何
越狱攻击(Jailbreaking)曾一度被认为是大型语言模型(LLM)应用中最严重的安全威胁之一。但在真实世界的模型部署中,大模型往往并不是“裸奔”的—输入输出链路上通常都会叠加各类安全防护措施,用于检测和拦截高风险请求。
那么,一个关键问题随之而来:
过往研究中广泛报告的越狱攻击成功率(ASR),是否在现实应用场景下被高估了?
从“裸模型”到真实推理链路
随着大模型的普及,AI 安全问题正被越来越多地关注。其中最核心的一类风险,是模型被诱导生成有害、有毒或仇恨性内容,尤其是在政治、暴力、极端主义等敏感议题上。
为应对这些风险,模型厂商通常会在模型训练阶段引入安全对齐(Alignment):
通过精心设计的数据集、明确的规则约束,对模型进行微调(SFT)或强化学习(RLHF),以降低其生成不安全内容的概率。
但实践已经反复证明,安全对齐并非“万能解法”。
在对抗性输入面前,模型仍然可能表现出明显的脆弱性——一些经过精心构造的提示词,能够绕过模型内部的安全机制,诱导其输出违规内容,这正是所谓的“越狱攻击”。28种LLM越狱攻击方法汇总(2025.8)
因此,现实世界中的大模型系统,往往不会只依赖模型本身的安全能力,而是会在模型外部再加一层防护措施——
也就是业内常说的大模型安全护栏(Guardrail)。
护栏的核心作用并不复杂:
在模型输入与输出环节检测风险内容,并在必要时进行拦截、替换或干预。
越狱攻击在真实系统中还有多大威胁?
一个长期被忽视的事实是:
过去大量越狱攻击研究,几乎都是在“无任何防护的裸模型”上进行的。
而最近一项由CISPA与南方科技大学联合完成的工作,第一次系统性地回答了一个更贴近现实的问题:
当模型被“套上护栏”之后,主流越狱攻击方法的真实危害程度到底还有多大?
研究者将多种主流护栏服务接入完整推理链路,对常见越狱攻击进行系统评测,从而更接近真实生产环境。
文章链接:https://www.arxiv.org/pdf/2512.24044
实验设计概览
核心实验结论
01 护栏显著降低越狱攻击成功率
与“裸模型”相比,所有护栏都能在不同程度上降低越狱攻击的 ASR。
其中,O3 的整体检测效果最好,在多数攻击场景下表现最为稳健。
这意味着:
在真实部署环境中,越狱攻击的实际威胁强度,明显低于许多基于裸模型得出的结论。
02 高召回的代价:用户体验显著受损
实验中一个非常现实、也非常关键的发现是:
所有过滤服务都明显倾向于“高召回”策略。
通俗地说,就是:
护栏更愿意“错杀”,也不愿“放过”。
这会带来一个直接后果——
无害请求、甚至是灰色的“两用性请求”,被错误拦截。
在真实业务中,我们通常用**FPR(误报率)**来衡量护栏对用户体验的影响:
FPR = 被错误判定为有害的请求 / 全部请求
根据实际经验,只要 FPR超过 1%,用户就会明显感知到模型“变笨”“过于保守”,投诉和流失随之出现。
而在这项实验中,即便在黑白样本 1:1 的理想比例下,所有护栏的 FPR 都超过了 5%。
在真实业务流量中,这个数字只会更高。
03 性能开销并非主要问题
从性能角度看,大多数护栏的推理开销都很低:
- LlamaGuard、InjecGuard 的额外延迟约30ms
- 相比 LLM 动辄 1 秒以上的首字延迟,几乎可以忽略
例外是GradSafe,由于引入梯度计算,推理耗时显著偏高;
而以O3为代表的推理型过滤器,更适合效果优先于性能的场景,比如离线审核或安全评测任务。
这项研究,对企业有哪些现实启示?
误区一:大模型安全只是模型本身的问题,护栏只是“临时补丁”
这项工作的结论恰恰相反。
在所有测试中,护栏都能显著降低主流越狱攻击的成功率。
而在真实业务中,护栏也远不只是一个“模型”——
它往往是一整套可配置、可运营、可人工介入的安全风控体系。
事实上,监管层早已给出明确方向。
早在2025 年 9 月,网安标委发布的
《政务大模型应用安全规范》中,就明确要求:
政务大模型落地必须配备护栏服务。
误区二:选护栏只看召回率,不看用户体验
实验已经清楚地表明:
只追求高召回,会直接拖垮业务可用性。
护栏一旦大量误拦正常请求,结果往往不是“更安全”,
而是用户投诉激增、留存下降,甚至引发反向舆情。
因此,更科学的护栏选型方式是:
在保证底线安全召回的前提下,基于真实业务数据,重点评估 FPR,
而不是只看实验室里的攻击拦截率。
同专题推荐
查看专题DeepSeek-R1的内容安全评测体系与测评结果(Nature,2025.9)
基于Nature文章系统分析DeepSeek的内容安全评测框架、数据集构建、判定标准和风控机制,以及多语种和越狱鲁棒性