提示注入即角色混淆

Simon Willison2026年6月23日 07:598.0/10

Ye等人的研究揭示，大语言模型在区分可信系统角色与不可信用户输入时，更重视文本风格而非语义内容，从而产生了一种称为“角色混淆”的漏洞。攻击者可以通过模仿模型内部思考的格式风格来绕过安全限制，但通过“去风格化”处理输入可显著降低攻击成功率。

该分析指出了当前LLM架构在处理多轮对话和系统提示时的一个关键缺陷，表明风格模仿可以覆盖基于语义的安全护栏。