一种用于生成式大语言模型的双阶中文指令越狱框架
DOI:
https://doi.org/10.70695/IAAI202504A5关键词:
Large Language Models; Prompt Injection; Jailbreak; Chinese Cotext; Security Evaluation摘要
配备先进推理能力的大语言模型(LLMs)已在各类自然语言任务中展现出不俗性能,但面对依赖上下文或部分模糊化的安全敏感指令时,仍存在易受影响的问题,在中文场景下尤为如此。为系统性评估这类风险,本文提出了双阶指令安全评估框架(DISEF),该框架包含虚拟场景嵌入(VSE)与结构化载荷拆分(FPS)两大模块:前者将查询语句嵌入语义无害的上下文,用于检验场景驱动的语境变化下模型的对齐稳定性;后者则是一种受控诊断技术,用于分析模型在处理碎片化或隐式编码的风险相关内容时的鲁棒性。本研究基于IJCAI 2025 生成式大语言模型安全攻防基准对该框架开展验证,验证工作覆盖提示词多样性、风险一致性评估,以及多类典型大语言模型的内容级风险分布情况。实验结果表明,不同模型在对齐鲁棒性方面存在显著差异,同时也揭示了跨模型的漏洞规律,以及中文指令处理流程中的风险暴露点。本文提出的框架所提供的切实可行的洞见,可助力增强模型的安全对齐能力、完善威胁检测机制,并为下一代生成式人工智能系统标准化评估方案的研发提供支持。