news 2026/4/18 22:38:22

强化学习论文(A3C)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习论文(A3C)

介绍:

  • 核心思想主要是利用多线程的方法,让多个环境并行的运行,在探索性策略的情况下,让agent能够在每一个step都有更多的探索性,尽快找到最优策略。
  • 抛弃DQN,DDPG,等算法中的replay buffer,采用on-line的方式学习。replay buffer会将数据存储起来供学习,其数据来源于旧的policy,on-line的方式的数据来自于刚刚更新的新policy。
  • 在多线程的情况下,每个agent有独立的环境,也面对不同的state,在多核cpu上,每个agent以不同的策略独立探索,大大增加了数据的多样性,同时数据天然的是相互独立的。
  • 网络参数是在线程之间异步更新的,而且是Lock free的,不需要互斥。

该方法可以用在不同的算法上,论文中介绍了四种算法的异步应用:

Async Q-Learning和Async n-Step Q-Learning:

在主线程上维护一个统一的global net,每个线程有独立的local net。当线程内满足terminal或特定步数后,更新local net。当所有线程的总步数满足特定条件后,将local net的参数复制给global net。

在n-step Q-Learning中,线手机n步的数据,再更新参数。这里n-step的最后一步的return计算方式和中间步骤的计算方式不太一样,最后一步是

而中间步是:

且需要每一步累计梯度。

Async one-Step SARSA和Async n-Step SARSA

和Async Q-Learning基本差不多,主要是把TD-target从变成了

Async Advantage Actor-critic

一个global的公共critic用来输出q-value,一个global的公共actor用来输出policy

这里也采用了n-step的方法,先收集一部分数据。也因此在更新过程中,它的优势函数就用

代替了标准A2C算法中的

同时,将策略的entropy添加的目标函数中,可以组织网络过早的收敛到次优解,从而改善探索性。包含entropy的目标函数是:

其中H就是策略的entropy,超参数β控制熵正则化项的强度。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 22:37:19

保姆级教程:在Ubuntu 18.04上用ROS Melodic搞定周立功CAN卡驱动与权限问题

机器人开发实战:Ubuntu 18.04下ROS Melodic与周立功CAN卡的深度集成指南 当你在机器人项目中第一次尝试让ROS系统与CAN总线设备对话时,很可能会遇到那个令人头疼的libusb_open failed错误。作为曾经花了整整一个周末才解决这个问题的过来人,我…

作者头像 李华
网站建设 2026/4/18 22:29:56

Redis 持久化策略对性能的影响

Redis持久化策略对性能的影响 Redis作为高性能的内存数据库,持久化机制是其核心特性之一,但不同的持久化策略会对性能产生显著影响。理解这些影响,有助于开发者在数据安全性与系统性能之间找到平衡点。本文将围绕Redis的RDB、AOF及混合持久化…

作者头像 李华
网站建设 2026/4/18 22:29:56

CMOS图像传感器核心技术解析:从像素结构到曝光控制

1. CMOS图像传感器的基础结构解析 当你用手机拍下一张照片时,光线首先穿过镜头,然后到达一个比指甲盖还小的芯片上——这就是CMOS图像传感器。这块小小的芯片内部其实是个精密的"光信号收集工厂",每个像素点都像是一个独立的"…

作者头像 李华
网站建设 2026/4/18 22:29:56

软件测试验证管理化的质量检查与确认

软件测试验证管理化的质量检查与确认 在当今快速发展的软件行业中,确保软件质量已成为企业成功的关键因素之一。软件测试验证管理化通过系统化的方法对质量进行检查与确认,不仅能够提升软件可靠性,还能降低开发成本与风险。随着敏捷开发与De…

作者头像 李华
网站建设 2026/4/18 22:28:28

用STC15F2K60S2单片机复现蓝桥杯省赛题:一个PWM控制LED亮度的实战案例

基于STC15F2K60S2的蓝桥杯省赛PWM调光项目实战 在嵌入式系统开发领域,蓝桥杯竞赛一直是检验学生单片机应用能力的重要平台。2016年第七届蓝桥杯单片机省赛题目中,PWM调光控制作为核心考点之一,至今仍具有很高的教学价值。本文将带您从零开始&…

作者头像 李华