在Google的新论文“RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback”测试了一种革命性的新技术,使AI系统能够通过使用其他AI的反馈来递归地改进自己。
这种新技术被称为RLAIF(AI反馈强化学习)。它并非本文作者独创,而是在之前被其Anthropic的研究者提出的一个概念(Gilardi et al., 2023; Ding et al., 2023). Bai et al. (2022b)。他们用这RLAIF 和 RLHF 结合形成一个综合的Constitutional AI,用于融合人类和AI提出的偏好应用在微调上,为微调提效。但这一工作并没有直接比较AI的反馈和人类反馈的效果。本文作者这一次就单独让AI作为反馈强化的唯一参与者,测试其效果。
作者限制了一个相对较窄的使用场景:用强化学习来训练人工智能系统的文本摘要能力——即产生从较长文章中捕捉关键点,来进行简明摘要。具体实验如下:
给定一个经过监督微调(SFT)的大语言模型(在本实验中是OpenAI开源的Reddit TL;DR数据集进行的预训练)。RLHF的处理流程是:
1.让被训练的语言模型都为给定的文章生成文本摘要
2.人类标注师对比较并评估几对总结,判断哪一个总结更优秀
3.这些人类的偏好被用来开发一个“奖励模型”,预测人类会喜欢哪些总结
4.然后,这个奖励模型被用来提供反馈和奖励,以增强人工智能代理生成被人类认为优秀的摘要
这一标注操作会进行多轮,以有效改进这个语言模型的效果。
RLAIF系统经历了相同的整体过程。然而关键的区别在于,这里面作为裁判的一个能力更强经过提前训练的“现成”自然语言模型。作者用经过精调后的PaLM-2.7B 来提供反馈判断,形成一套完整地对语言模型输出打分的偏好系统。这个先进的人工智能系统的反馈被用来代替人工评分,以训练提供训练奖励的奖励模型。