news 2026/7/1 15:06:19

强化学习REINFORCE求最优策略的代码实现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习REINFORCE求最优策略的代码实现

理论基础:

注意:

1. 策略的输出要加对数,因此net输出必须softmax,将输出限制为正数。

2. 这里选择action不是greedy地选择最优action,而是按照概率分布选择action->exploration。

3. 策略更新使用的是梯度上升,因此loss取负。

4. 这里使用step一步步收集episode,而不是像之前一样直接使用generate_episode函数生成完成的path,是因为在generate_episode中是使用greedy的方法选择action的(见2)。

5. num_episodes大一些。

代码可运行:

import numpy as np import torch from torch import nn from env import GridWorldEnv from utils import drow_policy ''' policy gradient by Monte Carlo ''' class Reinforce(object): def __init__(self, env: GridWorldEnv, gamma=0.9, lr=1e-2): ''' :param env: :param gamma: discount rate :param lr: learning rate of optimizer ''' self.env = env self.action_space_size = self.env.num_actions self.state_space_size = self.env.num_states self.gamma = gamma self.net = nn.Sequential( nn.Linear(2, 16), nn.ReLU(), nn.Linear(16, self.action_space_size) ) self.policy = np.zeros((self.state_space_size, self.action_space_size)) self.q_value = np.zeros((self.state_space_size, self.action_space_size)) self.optimizer = torch.optim.Adam(self.net.parameters(), lr=lr) def decode_state(self, state): ''' :param state: int :return: 归一化后的元组 ''' i = state // self.env.size j = state % self.env.size return torch.tensor((i / (self.env.size - 1), j / (self.env.size - 1)), dtype=torch.float32) def solve(self, num_episodes): for _ in range(num_episodes): state_int = self.env.reset() state = self.decode_state(state_int) done = False episode = [] # [[state_tensor,reward,done]...[...]] while not done: logits = self.net(state) action_probs = torch.softmax(logits, dim=0) action_dist = torch.distributions.Categorical(action_probs) # 按分布采样 action = action_dist.sample().item() next_state, reward, done = self.env.step(state_int, action) episode.append((state, action, reward)) state_int = next_state state = self.decode_state(next_state) # value update returns = [] G = 0 for _, _, reward in reversed(episode): G = reward + self.gamma * G returns.insert(0, G) # policy update self.optimizer.zero_grad() loss = 0 for (state, action, _), G in zip(episode, returns): logits = self.net(state) action_probs = torch.softmax(logits, dim=0) action_dist = torch.distributions.Categorical(action_probs) log_prob = action_dist.log_prob(torch.tensor(action)) # In Π(a_t|s_t, θ) loss -= log_prob * G # 负号是因为最小化 loss->最大化 J(θ),梯度上升更新参数 loss.backward() self.optimizer.step() def get_policy(self): for s in range(self.state_space_size): a = np.argmax(self.q_value[s]) self.policy[s, a] = 1 return self.policy def get_qvalues(self): for s in range(self.state_space_size): s_t = self.decode_state(s) logits = self.net(s_t) action_probs = torch.softmax(logits, dim=0) self.q_value[s,:] = action_probs.detach().numpy() # q_value是numpy类型,action_probs是tensor,必须转换 return self.q_value if __name__ == '__main__': env = GridWorldEnv( size=5, forbidden=[(1, 2), (3, 3)], terminal=[(4, 4)], r_boundary=-1, r_other=-0.04, r_terminal=1, r_forbidden=-1, r_stay=-0.1 ) vi = Reinforce(env=env) vi.solve(num_episodes=200) print("\n state value: ") print(vi.get_qvalues()) drow_policy(vi.get_policy(), env)

运行结果:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 19:49:49

BIOS VS UEFI

目录标题一、整体结论先给出(给决策用)二、启动链路:这是两者本质区别1️⃣ Legacy BIOS 启动链路(你现在这台)关键工程特征2️⃣ UEFI 启动链路(现代标准)关键工程特征三、磁盘与分区模型&…

作者头像 李华
网站建设 2026/6/26 13:42:07

Flink源码阅读:状态管理

前面我们介绍了 Flink 状态的分类和应用。今天从源码层面再看一下 Flink 是如何管理状态的。State 概述 关于 State 的详细介绍可以参考 Flink学习笔记:状态类型和应用 和 Flink学习笔记:状态后端这两篇文章,为了方面阅读,这里我…

作者头像 李华
网站建设 2026/6/26 1:58:41

收藏!2026大厂校招AI岗占比超9成,大模型技能已成职场硬通货

互联网大厂2026届校招早已跳出传统招聘框架,演变为一场硝烟弥漫的AI人才"军备竞赛"。百度AI岗位占比突破90%的数字,不仅是一个招聘指标,更像是行业发出的明确信号:AI能力已从"加分项"彻底升级为进入大厂的&qu…

作者头像 李华
网站建设 2026/6/26 13:42:25

mysql性能调优、连接数、问题排查等

文章目录查看连接数错误日志在哪里查看配置文件在哪里报错查看连接数 show status like %connect%; Aborted_connects 0 Connection_errors_accept 0 Connection_errors_internal 0 Connection_errors_max_connections 0 Connection_errors_peer_address 0 Connection_errors…

作者头像 李华