社区情报
来自安全社区、研究机构和开源生态的情报。
-
面向多种防御策略的自动化越狱攻击
作者:Qi Wang, Chengcheng Wan等 原文链接:https://arxiv.org/pdf/2606.16751 摘要 大型语言模型(LLM)在广泛的任务中展现出了卓越的能力。然而,由于其易受对抗性提示攻击的影响,其安全性仍然是一个关键问题。在本文中,我们提出了UniAttack,这是一个从防御视角设计的对抗性测试框架,用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...
作者:Qi Wang, Chengcheng Wan等 原文链接:https://arxiv.org/pdf/2606.16751 摘要 大型语言模型(LLM)在广泛的任务中展现出了卓越的能力。然而,由于其易受对抗性提示攻击的影响,其安全性仍然是一个关键问题。在本文中,我们提出了UniAttack,这是一个从防御视角设计的对抗性测试框架,用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...作者:Qi Wang, Chengcheng Wan等 原文链接:https://arxiv.org/pdf/2606.16751 摘要 大型语言模型(LLM)在广泛的任务中展现出了卓越的能力。然而,由于其易受对抗性提示攻击的影响,其安全性仍然是一个关键问题。在本文中,我们提出了UniAttack,这是一个从防御视角设计的对抗性测试框架,用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...扩展字段
{ "guid": "https://paper.seebug.org/3491" } -
ZERO-APT:面向智能防御下 LLM 驱动自动化渗透测试的闭环对抗框架
作者:Anlan Zheng, Tiantian Zhu 原文链接:https://arxiv.org/html/2606.05567v1 摘要 LLM驱动的自动化渗透测试智能体通常是在既不会检测也不会响应攻击的静态目标上进行评估的,因此它们在智能防御下的行为仍然未经测试。多步攻击链的因果一致性同样依赖于不稳定的LLM推理,而智能体的决策对人类分析人员来说仍然是不透明的。这三个缺陷——真实性、一致...
作者:Anlan Zheng, Tiantian Zhu 原文链接:https://arxiv.org/html/2606.05567v1 摘要 LLM驱动的自动化渗透测试智能体通常是在既不会检测也不会响应攻击的静态目标上进行评估的,因此它们在智能防御下的行为仍然未经测试。多步攻击链的因果一致性同样依赖于不稳定的LLM推理,而智能体的决策对人类分析人员来说仍然是不透明的。这三个缺陷——真实性、一致...作者:Anlan Zheng, Tiantian Zhu 原文链接:https://arxiv.org/html/2606.05567v1 摘要 LLM驱动的自动化渗透测试智能体通常是在既不会检测也不会响应攻击的静态目标上进行评估的,因此它们在智能防御下的行为仍然未经测试。多步攻击链的因果一致性同样依赖于不稳定的LLM推理,而智能体的决策对人类分析人员来说仍然是不透明的。这三个缺陷——真实性、一致...扩展字段
{ "guid": "https://paper.seebug.org/3490" } -
软件工程的终结:AI智能体如何从根本上重构软件范式
作者:Zhenfeng Cao 原文链接:https://arxiv.org/pdf/2606.05608 摘要 半个多世纪以来,软件工程一直建立在一个基本前提之上:人类工程师负责拆解问题,将决策逻辑编码为静态代码,并在需求演变时手动调整代码。本文认为,AI智能体(AI agents)的出现——即以大型语言模型作为主要推理引擎,将代码动态生成与丢弃作为工具性资源的系统——并非渐进式的改进,而是对软...
作者:Zhenfeng Cao 原文链接:https://arxiv.org/pdf/2606.05608 摘要 半个多世纪以来,软件工程一直建立在一个基本前提之上:人类工程师负责拆解问题,将决策逻辑编码为静态代码,并在需求演变时手动调整代码。本文认为,AI智能体(AI agents)的出现——即以大型语言模型作为主要推理引擎,将代码动态生成与丢弃作为工具性资源的系统——并非渐进式的改进,而是对软...作者:Zhenfeng Cao 原文链接:https://arxiv.org/pdf/2606.05608 摘要 半个多世纪以来,软件工程一直建立在一个基本前提之上:人类工程师负责拆解问题,将决策逻辑编码为静态代码,并在需求演变时手动调整代码。本文认为,AI智能体(AI agents)的出现——即以大型语言模型作为主要推理引擎,将代码动态生成与丢弃作为工具性资源的系统——并非渐进式的改进,而是对软...扩展字段
{ "guid": "https://paper.seebug.org/3489" } -
大语言模型后训练中的顺序数据投毒
作者:Jack Sanderson, Yihan Wang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2606.04929v1 摘要 大语言模型后训练包含多个阶段,例如监督微调(SFT)以及随后的人类反馈强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段,但忽略了...
作者:Jack Sanderson, Yihan Wang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2606.04929v1 摘要 大语言模型后训练包含多个阶段,例如监督微调(SFT)以及随后的人类反馈强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段,但忽略了...作者:Jack Sanderson, Yihan Wang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2606.04929v1 摘要 大语言模型后训练包含多个阶段,例如监督微调(SFT)以及随后的人类反馈强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段,但忽略了...扩展字段
{ "guid": "https://paper.seebug.org/3488" } -
BLAST:面向协作多智能体深度强化学习系统的隐秘后门杠杆攻击
作者:Jing Fang, Saihao Yan等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2501.01593v2 摘要 现有研究表明,协作多智能体深度强化学习(c-MADRL)极易遭受后门攻击威胁。一旦观测到后门触发器,系统将执行恶意行为,引发任务失败或达成攻击者恶意目的。然而现有后门攻击存在诸多缺陷:瞬时触发模式隐蔽性差、需借助额外网络完成后...
作者:Jing Fang, Saihao Yan等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2501.01593v2 摘要 现有研究表明,协作多智能体深度强化学习(c-MADRL)极易遭受后门攻击威胁。一旦观测到后门触发器,系统将执行恶意行为,引发任务失败或达成攻击者恶意目的。然而现有后门攻击存在诸多缺陷:瞬时触发模式隐蔽性差、需借助额外网络完成后...作者:Jing Fang, Saihao Yan等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2501.01593v2 摘要 现有研究表明,协作多智能体深度强化学习(c-MADRL)极易遭受后门攻击威胁。一旦观测到后门触发器,系统将执行恶意行为,引发任务失败或达成攻击者恶意目的。然而现有后门攻击存在诸多缺陷:瞬时触发模式隐蔽性差、需借助额外网络完成后...扩展字段
{ "guid": "https://paper.seebug.org/3487" } -
潜在对抗检测:基于大模型激活自适应探测的多轮攻击检测
作者:Prashant Kulkarni 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.28129v1 摘要 多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径,但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现,该攻击路径会在模型残差流中留下可识别的激活层特征:攻击每个阶段的切换都会引发激活向量偏移,最终累积路径长度远超正常...
作者:Prashant Kulkarni 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.28129v1 摘要 多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径,但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现,该攻击路径会在模型残差流中留下可识别的激活层特征:攻击每个阶段的切换都会引发激活向量偏移,最终累积路径长度远超正常...作者:Prashant Kulkarni 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.28129v1 摘要 多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径,但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现,该攻击路径会在模型残差流中留下可识别的激活层特征:攻击每个阶段的切换都会引发激活向量偏移,最终累积路径长度远超正常...扩展字段
{ "guid": "https://paper.seebug.org/3486" } -
GLiGuard:面向大语言模型安全防护的模式条件分类方法
作者:Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2605.07982v1 摘要 保障大语言模型(LLM)输出安全合规、符合政策要求,需要能跨多安全维度实时扩展的内容审核机制。然而,当前最优的安全护栏模型均基于70亿–27...
作者:Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2605.07982v1 摘要 保障大语言模型(LLM)输出安全合规、符合政策要求,需要能跨多安全维度实时扩展的内容审核机制。然而,当前最优的安全护栏模型均基于70亿–27...作者:Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2605.07982v1 摘要 保障大语言模型(LLM)输出安全合规、符合政策要求,需要能跨多安全维度实时扩展的内容审核机制。然而,当前最优的安全护栏模型均基于70亿–27...扩展字段
{ "guid": "https://paper.seebug.org/3485" } -
基于大语言模型的 AI 智能体安全威胁与防御系统性综述——分层攻击面框架
作者:Kexin Chu 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/pdf/2604.23338v2 摘要 智能体AI系统可跨多会话规划、保留记忆、调用外部工具并与对等智能体协同,无状态大语言模型则不具备这些能力。现有安全分类体系按攻击类型(如提示注入、越狱)划分威胁,却未说明脆弱的架构组件或威胁显现的时间尺度。本文直接解决这些结构性问题,提出分层攻击面模型(...
作者:Kexin Chu 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/pdf/2604.23338v2 摘要 智能体AI系统可跨多会话规划、保留记忆、调用外部工具并与对等智能体协同,无状态大语言模型则不具备这些能力。现有安全分类体系按攻击类型(如提示注入、越狱)划分威胁,却未说明脆弱的架构组件或威胁显现的时间尺度。本文直接解决这些结构性问题,提出分层攻击面模型(...作者:Kexin Chu 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/pdf/2604.23338v2 摘要 智能体AI系统可跨多会话规划、保留记忆、调用外部工具并与对等智能体协同,无状态大语言模型则不具备这些能力。现有安全分类体系按攻击类型(如提示注入、越狱)划分威胁,却未说明脆弱的架构组件或威胁显现的时间尺度。本文直接解决这些结构性问题,提出分层攻击面模型(...扩展字段
{ "guid": "https://paper.seebug.org/3484" }