大语言模型后训练中的顺序数据投毒

来源： seebug_paper_rss · 发布时间 2026-06-08 11:46 (UTC+08:00) · 抓取时间 2026-06-17 17:55 (UTC+08:00)

摘要

作者：Jack Sanderson, Yihan Wang等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2606.04929v1 摘要大语言模型后训练包含多个阶段，例如监督微调（SFT）以及随后的人类反馈强化学习（RLHF）或直接偏好优化（DPO），每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段，但忽略了...

扩展字段

{
  "guid": "https://paper.seebug.org/3488"
}

网安资讯详情 - SecLens 情报雷达

大语言模型后训练中的顺序数据投毒

摘要

标签

扩展字段