网安资讯详情 - SecLens 情报雷达

网安资讯,一网打尽。汇集权威漏洞通告与行业要闻,结合分组浏览、智能过滤、RSS订阅 和 Webhook 推送,多通道拓展您的安全情报视野。

大语言模型后训练中的顺序数据投毒

来源: seebug_paper_rss · 发布时间 2026-06-08 11:46 (UTC+08:00) · 抓取时间 2026-06-17 17:55 (UTC+08:00)

原文链接

摘要

作者:Jack Sanderson, Yihan Wang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2606.04929v1 摘要 大语言模型后训练包含多个阶段,例如监督微调(SFT)以及随后的人类反馈强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段,但忽略了...

标签

扩展字段

{
  "guid": "https://paper.seebug.org/3488"
}