大模型学习基础（六）强化学习（Reinforcement Learning，RL）初步1.2-平芜编程栈

我们已经知晓强化学习的基本要素有actor、environment、reward。强化学习的基本模型如下：

environment交给actor一个observation，即s；actor得到s向量以后给出动作action，即a；a、s输入reward模型，得到分数r，通过分数来衡量优势函数A的取值（上述例子直接用奖励r定义优势函数）；损失函数通过交叉熵和A共同定义，通过减小损失函数，优化actor的参数

而实际上，每一个动作a会直接影响到后续的s和a，因此a之间并不是相互独立的。另外一个问题是，如果简单的用r来作为A的数值，会有一个问题，就是只有在做固定的action时A才会增加，这会导致actor只会选择固定的action，实际上的RL对A的定义有多种方法。

一种定义优势函数的方法是把动作a之后所有动作获得的r累计起来，作为该动作的优势函数。

优势函数，使用此优势函数将会使actor的action选择更加多样化，而不是只采用reward为正的动作，从而更可能从全局视角考虑问题的最优解。

但是上述定义优势函数的方法有一个问题，那就是奖励的值似乎并不直接受到动作的影响，或者说受到其影响较小，更合适的一种优势函数设定的方法是

可能存在一种情况，即所有的action对应的A都是大于零的，这样actor将会认为所有的action都是好的，这显然不对；所以还需要对A进行标准化。最简单的标准化方法是直接减去一个baseline，即,就是baseline，人为设定。

接下来介绍上述思想的程序逻辑：
1.actor是一个神经网络模型，首先需要初始化actor的参数

2.actor初始化之后，用其跟environment进行互动，得到一系列的对

3.计算优势函数，用于评价对的得分

4.定义损失函数，如交叉熵

5.用优化器结合损失函数更新actor参数

这里有一个重要问题，actor在训练过程中所使用的训练集使它自己和环境交互产生的，这是RL显著区别于传统的监督学习的地方。

上述例子中，actor每和environment互动一次，产生一组{s，a}，然后再计算价值函数A，接着计算出损失函数，更新actor的参数；在下一个循环中，actor已经是新的actor了，其和environment互动将产生新的{s，a}，然后循环此过程。这意味着actor每次用来的训练的数据都是它自己产生的。这种训练用自己产生的数据训练自己的方法叫做on-policy。这种方法的局限在于收集资料的过程太过于漫长，而不能像监督学习一样直接使用现成的数据集。

对应的，自然有actor依赖别的actor所产生的数据进行训练的方法，叫做off-policy。一种经典的off-policy算法就是之前提到过的PPO(近端策略优化)。

在训练过程中，为了使得模型泛化能力更强，需要给actor增加一定的随机性，如在actor的参数上加一些noise或者扩大actor输出的交叉熵

Linux中软件包管理器yum

软件包在linux中安装软件，一个通常的办法就是下载该软件的源代码，然后将这些代码编译形成可执行程序。这一办法虽然可行，但是太过繁琐，因此为了简化这一过程，有些人就把一些常用的软件提前编译好，做成软件包…

李华

linux的开发工具vim

目录 vim是什么 vim的基本操作 vim正常模式的命令集 vim底行模式命令集 vim是什么 vim是一个高度可配置的文本编辑器，旨在实现高效的文本编辑，它有六种基本模式：普通模式、插入模式、可视模式、选择模式、命令行模式和替换模式。其中&…

李华

基于SpringBoot+Vue的宠物代遛系统设计与实现

前言 🌞博主介绍：✌CSDN特邀作者、全栈领域优质创作者、10年IT从业经验、码云/掘金/知乎/B站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。✌…

李华

收藏！程序员转型大模型：不是从零开始，而是降维升级

当“大模型”从技术圈的高频热词，彻底变成企业招聘需求里的“硬指标”，不少深耕Java、Python多年的传统程序员陷入了职业抉择：是守着熟悉的业务逻辑和CRUD安于现状，还是借着AI浪潮完成职业跃迁？答案其实早已清晰——相…

李华

11、Linux 系统中的 IP 流量统计全解析

Linux 系统中的 IP 流量统计全解析在当今商业互联网服务的世界里，了解网络连接中传输和接收的数据量变得越来越重要。对于互联网服务提供商（ISP）而言，按流量向客户收费时，准确掌握流量数据是业务运营的关键；而对于按数据流量付费的客户来说，自行收集数据有助于确保互联…

李华

【必收藏】CTF完全指南：网络安全实战练兵场，从小白到高手的入门捷径

一文读懂 CTF：网络安全领域的 “实战练兵场”，新手入门全指南如果你是网络安全爱好者，一定听过 “CTF” 这个词 —— 它是安全圈的实战练兵场，是新手快速提升技术的捷径，更是企业招聘渗透测试、安全工程师的加分项。…

李华