大型语言模型可以进行安全自我评估吗?认识 RAIN:一种无需微调即可改变 AI 对准和防御的新颖推理方法


事实证明,像 GPT-3 这样的预训练大型语言模型 (LLM) 在理解和回答人类问题、帮助编写代码等方面具有非凡的能力。然而,它们经常产生与人们喜欢的结果不同的结果。过去,研究人员试图通过收集有关人类偏好的信息来解决这个问题,然后通过使用强化学习或指令调整来调整先前训练的模型,从而需要一个微调阶段。调整冻结的法学硕士(尚未接受额外培训且不需要额外数据)更具吸引力。 

最近,一组研究人员发现,未结盟的法学硕士可以通过包含自我评估和倒带机制的自我改进过程,直接生成符合人类偏好的回复。为了人工智能的安全,他们引入了可回滚自动回归推理(RAIN),这是一种独特的推理技术,使预先训练的法学硕士能够评估自己生成的文本,并使用评估结果来指导向后倒带和向前生成。

RAIN 以其运行而无需任何进一步数据来进行模型对齐的能力而闻名。它消除了参数更新、梯度计算或训练的要求。该模型通过固定模板提示来获取在自我评估阶段人类偏好的调整方向,从而避免了重复调整初始查询的需要。

由 GPT-4 模型和人类评估员评估的实验结果显示了 RAIN 的成功程度。例如,使用 HH 数据集,RAIN 保持有用率恒定,同时与普通推理相比,显着提高了 LLaMA 30B 的无害率,从 82% 到 97%。该团队表示,当 Vicuna 33B 成为显着敌对攻击 (LLM-ATTACKS) 的目标时,RAIN 甚至通过将攻击成功率从 94% 降低到 19% 建立了新的防御基线。

与当前使用的对齐大型语言模型 (LLM) 的方法相比,RAIN 提供了许多优势 – 

  1. 通用性:RAIN 方法适应性强,可用于各种语言生成工作。它完全符合自回归推理范式,这是许多法学硕士的标准。这意味着 RAIN 具有高度可定制性和用户友好性,可以快速集成到大多数当前的法学硕士中。
  1. 与冻结权重对齐:与 RLHF 等其他对齐策略相比,RAIN 不需要维护额外的模型或存储梯度数据和计算网络。由此产生的最小内存开销与简单的自回归推理相当。 RAIN 是使法学硕士与冻结权重对齐的现实选择,因为其实现简单且内存高效的设计,消除了资源密集型微调程序。
  1. 免学习:RAIN 不依赖任何类型的标记或未标记数据或人工注释。它不需要大量信息或培训,因为它以无需学习的方式运行。 RAIN 显着增强了一系列任务的对齐性能,并使法学硕士能够更好地抵御恶意的即时攻击。当针对众所周知的对抗性攻击方法进行评估时,它显着降低了攻击成功率,证明了其防御此类攻击的效力。

总之,本研究引入了 RAIN 作为一种根据人类偏好调整法学硕士的技术,而不需要额外的信息或费力的微调。这是通过允许法学硕士评估和增强自己的产出来实现的,最终导致更加协调和安全的人工智能生成的响应。


查看 纸这项研究的所有功劳都归功于该项目的研究人员。另外,别忘了加入 我们的 30k+ ML SubReddit, 40k+ Facebook 社区, 不和谐频道, 和 电子邮件通讯,我们在这里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。

如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。


20220308 160704 1 谭雅

Tanya Malhotra 是德拉敦石油与能源研究大学的最后一年本科生,攻读计算机科学工程学士学位,专攻人工智能和机器学习。
她是一位数据科学爱好者,具有良好的分析能力和批判性思维,并对获取新技能、领导团队和以有组织的方式管理工作抱有浓厚的兴趣。




来源链接

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

zh_CNChinese