一种用于生成式大语言模型的双阶中文指令越狱框架

作者

  • 颖坤 黄 中国电子信息数据产业集团有限公司 作者
  • 晓如 庄 深圳职业技术大学 作者
  • 世豪 宋 中国电子信息数据产业集团有限公司 作者

DOI:

https://doi.org/10.70695/IAAI202504A5

关键词:

Large Language Models; Prompt Injection; Jailbreak; Chinese Cotext; Security Evaluation

摘要

配备先进推理能力的大语言模型(LLMs)已在各类自然语言任务中展现出不俗性能,但面对依赖上下文或部分模糊化的安全敏感指令时,仍存在易受影响的问题,在中文场景下尤为如此。为系统性评估这类风险,本文提出了双阶指令安全评估框架(DISEF),该框架包含虚拟场景嵌入(VSE)与结构化载荷拆分(FPS)两大模块:前者将查询语句嵌入语义无害的上下文,用于检验场景驱动的语境变化下模型的对齐稳定性;后者则是一种受控诊断技术,用于分析模型在处理碎片化或隐式编码的风险相关内容时的鲁棒性。本研究基于IJCAI 2025 生成式大语言模型安全攻防基准对该框架开展验证,验证工作覆盖提示词多样性、风险一致性评估,以及多类典型大语言模型的内容级风险分布情况。实验结果表明,不同模型在对齐鲁棒性方面存在显著差异,同时也揭示了跨模型的漏洞规律,以及中文指令处理流程中的风险暴露点。本文提出的框架所提供的切实可行的洞见,可助力增强模型的安全对齐能力、完善威胁检测机制,并为下一代生成式人工智能系统标准化评估方案的研发提供支持。

已发布

2025-12-31

如何引用

黄颖., 庄晓., & 宋世. (2025). 一种用于生成式大语言模型的双阶中文指令越狱框架. 人工智能应用创新, 2(4), 11-20. https://doi.org/10.70695/IAAI202504A5