news 2026/4/15 7:34:02

【ppo】强化学习ppo训练调参

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ppo】强化学习ppo训练调参

ppo特点

在策略更新时,限制新旧策略差异,避免一步更新把策略推翻
这意味着:

  • ppo 天然偏保守
  • 一旦策略早期形成“错误偏好”,后续很难纠正
  • 奖励设计和 early-stage 行为分布,决定成败

奖励函数

  • 首先目标奖励要大、终局错误惩罚也需要大
  • 每一步应该有小奖励/惩罚指导模型该前进的方向,但不要大过整体目标的奖励/惩罚;同时应鼓励探索或者绕路,这就应该设置随步数增长而衰减的奖励/惩罚

多阶段奖励函数

对于复杂问题的强化学习,可以先设置简单奖励函数训练模型,待模型学到简单规则后再修改奖励函数为更复杂的设计,让模型学到更精细化的动作

学习率

critic优化器的学习率要设置为明显小于actor优化器,actor的学习依赖于critic,如果critic不稳定会导致actor网络的震荡
可以参考以下学习率

actor_optimizer=torch.optim.Adam(actor_model.parameters(),lr=0.0005)critic_optimizer=torch.optim.Adam(critic_model.parameters(),lr=0.0001)

网络训练

训练频率

多个episode之后再训练一次网络,单个episode之后训练网络有可能会出现方差大,导致训练不稳定,多个episode训练网络时将advantage也平均会更稳定

训练阶段

ppo比较通用,但收敛较慢,对于前期难训练或者想加快训练的任务,可以使用ddqn等收敛快的模型先训练前期阶段,后改为使用ppo继续训练

actor/critic网络

对输入网络的数据进行归一化很重要,可以平滑特征曲面,更容易优化,减少局部最优解的情况

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 3:15:21

当PI遇上自抗扰:永磁同步电机控制的暴力美学

基于自抗扰控制器的永磁同步电机矢量控制。 在传统双闭环PI控制系统结构的基础上,在 Simulink软件中,分别采用PI控制器和自抗扰控制器搭建转 速环三相永磁同步电机矢量控制系统模型,通过仿真得到该控制方法下的电机转速、电磁转矩和电流响应。…

作者头像 李华
网站建设 2026/4/13 7:28:49

谁是未来“宝藏”?计算机类专业避坑攻略:18个方向深度解析

一次搞懂计算机类18个本科专业方向的区别,谁是“宝藏”谁是“天坑”? 随着科技进步的日新月异,互联网在日常生活中所扮演的角色越来越重要。数字化、信息化的时代里,计算机类专业无疑是当今高考最热门且最具发展前景的志愿填报方…

作者头像 李华
网站建设 2026/4/11 20:39:59

清华镜像加速下载:获取PyTorch-CUDA-v2.7镜像的最快方式

清华镜像加速下载:获取PyTorch-CUDA-v2.7镜像的最快方式 在深度学习项目开发中,最令人头疼的往往不是模型调参,而是环境搭建——明明代码没问题,却因为 PyTorch 和 CUDA 版本不匹配、依赖冲突或下载太慢导致“在我机器上跑不了”…

作者头像 李华
网站建设 2026/4/13 11:45:36

PyTorch-CUDA-v2.7镜像内置Jupyter,支持在线调试与可视化

PyTorch-CUDA-v2.7镜像内置Jupyter,支持在线调试与可视化 在深度学习项目中,最让人头疼的往往不是模型设计本身,而是环境搭建——“为什么代码在我机器上跑得好好的,换台设备就报错?”这类问题几乎成了每个AI工程师的噩…

作者头像 李华
网站建设 2026/4/13 12:05:13

如何在Jupyter Notebook中使用PyTorch-CUDA-v2.7镜像?详细图文教程

如何在 Jupyter Notebook 中使用 PyTorch-CUDA-v2.7 镜像?实战指南 你有没有遇到过这样的场景:刚拿到一台新服务器,兴致勃勃准备跑深度学习模型,结果花了整整一个下午还在折腾 CUDA 版本、cuDNN 兼容性、PyTorch 安装失败……最后…

作者头像 李华