Secrets of RLHF in Large Language Models Part I: PPO

2023-09-15 17:29:25

本文是LLM系列文章,针对《Secrets of RLHF in Large Language Models Part I: PPO》的翻译。

摘要

大型语言模型(LLM)为通用人工智能的发展制定了蓝图。它的主要目标是作为一个以人为本(乐于助人、诚实无害)的助手。与人类保持一致具有至关重要的意义,人类反馈强化学习(RLHF)成为支撑这一追求的关键技术范式。目前的技术路线通常包括衡量人类偏好的奖励模型、优化政策模型输出的近端策略优化(PPO)以及提高逐步推理能力的过程监督。然而,由于奖励设计、环境交互和代理训练的挑战,再加上大型语言模型的巨大试错成本,人工智能研究人员在激励LLM的技术对齐和安全着陆方面存在重大障碍。RLHF的稳定训练仍然是一个谜。
在第一份报告中,我们剖析了RLHF的框架,重新评估了PPO的内部工作,并探讨了组成PPO算法的部分如何影响策略代理训练。我们确定策略约束是PPO算法有效实现的关键因素。因此,我们探索了PPO算法的高级版本PPO max,以有效地提高策略模型的训练稳定性。基于我们的主要结果,我们与SFT模型和ChatGPT进行了RLHF能力的全面分析。除了额外的定性结果外,我们甚至发现,通过我们的算法成功训练的LLM通常可以更好地理解查询的深层含义,其响应更能直接击中人们的灵魂。
开源实现的缺乏对LLM一致性的调查提出了重大挑战。因此,我们迫切希望发布技术报告、奖励模型和PPO代码,旨在为LLM的发展做出适度贡献。

1 引言

2 相关工作

3 人类反馈的强化学习

4 有益和无害的奖励模型

5 PPO的探索

6 评估和讨论

局限性

探索RLHF确实是一个有价值但孤独的方向,我们很高兴实验室的核心骨干能够坚定地探索一个不确定的方向。此外,在过去的几个月里,每个人都充满了激情和动力。RLHF不仅允许模型实现人与人之间的一致性,而且似乎可以使每个人的意愿一致。
千里之行始于足下。尽管我们已经迈出了RLHF的第一步,但由于时间和资源的限制,这项工作仍有以下限制:
缩放定律。虽然我们的研究主要集中在70亿参数的模型上,但我们尚未研究模型大小和数据规模对RLHF性能的影响。
奖励模型。我们的实验是基于公开的英语人类偏好数据集和少量自建的中文数据。我们所掌握的数据的质量和数量可以说不足以对奖励模型进行全面评估。
评估指标。我们的评估标准在很大程度上依赖于手动评估和GPT-4自动评估。我们没有利用大量可用的基准和NLP任务来对我们的模型进行详细评估。
绩效指标。我们在PPO阶段的重点是实现稳定性,而不是提高最终性能。虽然稳定至关重要,但它并不一定能保证结果的改善。此外,奖励分数不能可靠地用作预测训练阶段期间RLHF表现的指标。这意味着需要在训练阶段寻求一个更合适的绩效指标。

更多推荐

在Scrapy框架中使用隧道代理

今天我要和大家分享一些实战经验,教你如何在Scrapy框架中使用隧道代理。如果你是一个热爱网络爬虫的开发者,或者对数据抓取和处理感兴趣,那么这篇文章将帮助你走上更高级的爬虫之路。首先,让我们简单介绍一下Scrapy框架。Scrapy是一个强大的Python网络爬虫框架,它能够帮助我们高效地抓取网页数据并进行处理。使用S

京东商品详情数据采集接口

使用京东商品详情接口的具体流程如下:注册账号并登录。填写应用相关信息,包括应用名称、应用描述、应用回调地址等,然后提交申请。审核通过后,进入应用管理页面,点击“应用信息”,获取应用Key和应用Secret。获取商品详情接口。京东提供了丰富的API接口,不同的接口可以获取不同的商品信息。这里以获取商品详情接口为例。获取A

电容笔哪个厂家的产品比较好?开学季值得买电容笔

现在,几乎每个人都有一个ipad平板,可以帮助你解决很多工作和学习上的难题,比如工作时的整理文档,做一些简单的PPT,以及在学习上记录笔记等等。所以,用一支好用的电容笔来搭配iPad是非常重要的。在这里,我给大家安利几款既使用方便,又价格不贵的电容笔!一、电容笔和ApplePencil的区别以及电容笔的优势1、压感电容

zabbix监控

一、zabbix概述1.zabbix是什么?zabbix是一个基于web界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位、解决存在的各种问题。zabbix由两部分构成,zabbixserver与可选组件z

【大规模 MIMO 检测】基于ADMM的大型MU-MIMO无穷大范数检测研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。⛳️座右铭:行百里者,半于九十。📋📋📋本文目录如下:🎁🎁🎁目录💥1概述📚2运行结果🎉3参考文献🌈4Matlab代码实现💥1概述针对大型多用户(MU)多输入多输出(MIMO)无线

MATLAB的输入与输出函数

标题输入:input()1.输入单个数值2.输入字符串3.输入以空格隔开的一行数值4.输入以空格与换行符隔开的多行数值输出1.disp()(1)输出单个数值(2)输出一维数组(3)输出矩阵(4)输出字符串2.fprintf()(1)输出格式化的单个数值(2)输出格式化的一维数组(3)输出格式化的矩阵(4)输出格式化的字

PostgreSQL 数据类型

文章目录PostgreSQL数据类型说明PostgreSQL数据类型使用单引号和双引号数据类型转换布尔类型数值类型整型浮点型序列数值的常见操作字符串类型日期类型枚举类型IP类型JSON&JSONB类型复合类型数组类型PostgreSQL数据类型说明PGSQL支持的类型特别丰富,大多数的类型和MySQL都有对应的关系名称

参议院算法Java

Dota2的世界里有两个阵营:Radiant(天辉)和Dire(夜魇)Dota2参议院由来自两派的参议员组成。现在参议院希望对一个Dota2游戏里的改变作出决定,他们以一个基于轮为过程的投票进行。在每一轮中,每一位参议员都可以行使两项权利中的一项:禁止一名参议员的权利:参议员可以让另一位参议员在这一轮和随后的几轮中丧失

邓俊辉《数据结构》→ “2.6.5 二分查找(版本A)”之“成功查找长度”递推式推导

【问题描述】邓俊辉的《数据结构(C++语言版)(第3版)》(ISBN:9787302330646)中,开始于第48页的“2.6.5二分查找(版本A)”内容在第50页详述了“成功查找长度”的递推式,但此递推式乍一看令人费解。故为了说明问题,进行一些约定并详述如下:●既然是二分查找,所以给定的序列必定是有序的。●不失一般性

SmartNews 基于 Flink 的 Iceberg 实时数据湖实践

摘要:本文整理自SmartNews数据平台架构师ApacheIcebergContributor戢清雨,在FlinkForwardAsia2022实时湖仓专场的分享。本篇内容主要分为五个部分:SmartNews数据湖介绍基于Icebergv1格式的数据湖实践基于Flink实时更新的数据湖(Icebergv2)解决方案实

浅谈霍尔电流传感器在汽车电池管理系统中的应用

摘要:随着电动汽车和混合动力汽车的需求和产量正在增加,两种类型的车辆都需要高电流容量的电池来运行50kW或更高功率的电机,并且这些都使用高压系统。汽车电池管理系统中对于电流的测量检测需要隔离测量的方式,而霍尔电流传感器是隔离测量,所以霍尔电流传感器适用于该应用场景。关键词:电动汽车;混合动力汽车;电池管理系统;霍尔电流

热文推荐