面向多种防御策略的自动化越狱攻击
摘要
作者:Qi Wang, Chengcheng Wan等 原文链接:https://arxiv.org/pdf/2606.16751 摘要 大型语言模型(LLM)在广泛的任务中展现出了卓越的能力。然而,由于其易受对抗性提示攻击的影响,其安全性仍然是一个关键问题。在本文中,我们提出了UniAttack,这是一个从防御视角设计的对抗性测试框架,用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...
标签
- source:seebug
- type:paper
扩展字段
{
"guid": "https://paper.seebug.org/3491"
}