强化学习Sarsa求最优策略-平芜编程栈

理论基础：

注意：

1. 超参数samples的设置：size of q_table = grid_size*grid_size*action_size，每个 Q(s,a) 至少要访问 t= 20～50 次，才能开始收敛，那么需要的总更新次数至少是(q_table)*t，如果每个episode平均走step步，那么sample大小至少为(q_table)*t / step。大概来说，episode 数至少是 Q‑table 大小的 50～200 倍。

2. alpha不能太小，否则学不动，GridWorld 这种小环境alpha取0.05~0.2差不多。但也不能太大，比如0.5就太大了，Q 值会剧烈震荡，策略不稳定。

代码可运行：

''' 区别：1. sarsa是从一个特定的开始状态出发，到达目标状态，只有这条episode是最优的，其他状态则不一定 2. sarsa是迭代式算法，每更新一次action value就要更新一次policy ''' import random import numpy as np from prometheus_client import samples from env import GridWorldEnv from utils import drow_policy class Sarsa(object): def __init__(self, env:GridWorldEnv, gamma=0.9, alpha=0.001, epsilon=0.1, samples=1, start_state=(0,0)): ''' :param env: 定义了网格的基础配置 :param gamma: discount rate :param alpha: learning rate :param epsilon: epsilon greedy更新policy :param samples: 从起点到终点采样的路径数 :param start_state: 起点 ''' self.env = env self.action_space_size = self.env.num_actions # 上下左右原地 self.state_space_size = self.env.num_states self.reward_list = self.env.reward_list self.gamma = gamma self.samples = samples self.alpha = alpha self.epsilon=epsilon self.start_state = self.env.state_id(start_state[0],start_state[1]) self.policy = np.ones((self.state_space_size, self.action_space_size)) / self.action_space_size self.qvalues = np.zeros((self.state_space_size, self.action_space_size)) def solve(self): for i in range(self.samples): s = self.start_state a = np.random.choice(self.action_space_size, p=self.policy[s]) while s not in self.env.terminal: next_s, next_r, _ = self.env.step(s,a) next_a= np.random.choice(self.action_space_size, p=self.policy[next_s]) # 根据Πt(s_t+1)生成a_t+1 # updata q-value for (s_t,a_t) # qt+1(st, at) = qt(st, at) − αt(st, at) [ qt(st, at) − (rt+1 + γqt(st+1, at+1))] td_target=next_r+self.gamma*self.qvalues[next_s][next_a] td_error=td_target-self.qvalues[s][a] # 负号提出去 self.qvalues[s][a]+=self.alpha*td_error # update policy for s_t best_a=np.argmax(self.qvalues[s]) self.policy[s] = self.epsilon / self.action_space_size self.policy[s, best_a] += 1 - self.epsilon s, a = next_s, next_a if __name__ == '__main__': env = GridWorldEnv( size=5, forbidden=[(1, 2), (3, 3)], terminal=[(4, 4)], r_boundary=-1, r_other=-0.04, r_terminal=1, r_forbidden=-1, r_stay=-0.1 ) # 注意samples要大一点，否则每个state被访问到的概率很小 vi=Sarsa(env=env, gamma=0.9, alpha=0.01, epsilon=0.1, samples=5000, start_state=(0,0)) vi.solve() print("\n state value: ") print(vi.qvalues) drow_policy(vi.policy, env)

运行结果：

探索非线性电液伺服系统的模型预测控制（MPC）之旅

非线性电液伺服系统模型预测控制（MPC）pdf教程matlab/simulink源程序 s函数编写在控制领域，非线性电液伺服系统一直是个颇具挑战但又充满魅力的存在。今天咱就聊聊基于模型预测控制（MPC）方法以及对应的 Matlab/Simulink…

李华

MATLAB 风力发电系统低电压穿越之串电阻策略探索

MATLAB 风力发电系统低电压穿越—串电阻策略低电压穿越双馈风力发电机本人研究方向电机控制与故障诊断嘿，大家好！今天来聊聊我在电机控制与故障诊断研究方向中，关于 MATLAB 风力发电系统低电压穿越的串电阻策略这块有趣的内容。咱们都知道…

李华

31、Ubuntu 服务器虚拟化与 KVM 配置指南

Ubuntu 服务器虚拟化与 KVM 配置指南在当今的系统管理领域，虚拟化技术无疑是最热门的趋势之一。通过虚拟化，你能够在同一硬件上创建多个 Ubuntu 实例，并且为每个虚拟机分配服务器的部分资源。现代服务器拥有强大的处理能力，借助虚拟化技术，你可以充分挖掘硬件的潜力。本…

李华

匠魂的熔炼注册

匠魂的熔炼系统代码概述这是熔炼系统的主要注册类，负责注册：所有熔炉相关的方块（加热块、焦黑块、各种功能方块）熔炼相关的物品（模具、铸件等）方块实体类型配方序列化器 GUI容器创造模式标签页关键部分分析 1. 合金相关定义位置合金相关的注册在以下位置： …

李华

PRML为何是机器学习的经典书籍中的经典？

PRML（Pattern Recognition and Machine Learning，中文名《模式识别与机器学习》）被誉为机器学习领域的“圣经”，其经典性体现在内容深度与广度、理论框架的统一性、数学严谨性、结构合理性、实践资源丰富性等多个方面，…

李华

教程 31 - 材质系统

上一篇：纹理系统 | 下一篇：几何体系统 | 返回目录 📚 快速导航 📋 目录引言学习目标材质系统概念材质数据结构材质配置文件材质系统架构材质加载流程配置文件解析字符串工具扩展渲染器集成使用示例常见问题练习与挑战下一步 &am…

李华