A Dual-Stage Chinese Instruction Jailbreaking Framework for Generative Large Language Models

Yingkun Huang; Xiaoru zhuang; Shihao Song

doi:10.70695/IAAI202504A5

作者

颖坤黄中国电子信息数据产业集团有限公司作者
晓如庄深圳职业技术大学作者
世豪宋中国电子信息数据产业集团有限公司作者

DOI：

https://doi.org/10.70695/IAAI202504A5

关键词：

Large Language Models; Prompt Injection; Jailbreak; Chinese Cotext; Security Evaluation

摘要

配备先进推理能力的大语言模型（LLMs）已在各类自然语言任务中展现出不俗性能，但面对依赖上下文或部分模糊化的安全敏感指令时，仍存在易受影响的问题，在中文场景下尤为如此。为系统性评估这类风险，本文提出了双阶指令安全评估框架（DISEF），该框架包含虚拟场景嵌入（VSE）与结构化载荷拆分（FPS）两大模块：前者将查询语句嵌入语义无害的上下文，用于检验场景驱动的语境变化下模型的对齐稳定性；后者则是一种受控诊断技术，用于分析模型在处理碎片化或隐式编码的风险相关内容时的鲁棒性。本研究基于IJCAI 2025 生成式大语言模型安全攻防基准对该框架开展验证，验证工作覆盖提示词多样性、风险一致性评估，以及多类典型大语言模型的内容级风险分布情况。实验结果表明，不同模型在对齐鲁棒性方面存在显著差异，同时也揭示了跨模型的漏洞规律，以及中文指令处理流程中的风险暴露点。本文提出的框架所提供的切实可行的洞见，可助力增强模型的安全对齐能力、完善威胁检测机制，并为下一代生成式人工智能系统标准化评估方案的研发提供支持。

一种用于生成式大语言模型的双阶中文指令越狱框架

作者

DOI：

关键词：

摘要

下载

已发布

期刊

部分

类别

如何引用

语言

Change of Organizing Institution