news 2026/2/25 2:49:16

强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习中的单个回合的回报估计动作值和所有回合的回报估计动作值的理解及exploring starts条件

你的核心困惑就一个:“单个回合到底是多长的路径?是不是走一步就是一个回合?”
答案直接给你:不是走一步!单个回合是“从任意起始状态出发,一直走到终止状态(比如目标/失败)的完整路径”——和“所有回合”的“回合”是同一个定义!

两者的区别根本不在“回合的长度/定义”,而在“用多少个回合的回报来算动作值Q(s,a)”——我用最极端的对比(只看一个动作值Q(S1,A右)),让你秒懂:

前提设定(极简版,避免复杂)

  • 环境:1×5网格(S1→S2→S3→S4→S5),S5是目标(r=10),其他状态无即时奖励(r=0),γ=1(无折扣);
  • 只关注一个动作值:Q(S1,A右)(从S1走“右”动作的动作值);
  • 回合定义:从任意状态出发,走到S5(终止),就是一个完整回合。

一、所有回合的回报平均值(MC Basic)

核心逻辑:用「多个回合」中S1→A右的回报,求平均算Q(S1,A右)
  1. 先跑3个完整回合(每个回合都是走到S5才结束):
    • 回合1:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G1=10(因为只有S5给10);
    • 回合2:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G2=10;
    • 回合3:S1→A右→S2→A右→S3→A右→S4→A右→S5(终止),回报G3=10;
  2. 算Q(S1,A右):用这3个回合的回报求平均
    Q(S1,A右) = (G1 + G2 + G3) / 3 = (10+10+10)/3 = 10;
  3. 关键:必须攒够“所有要用到的回合”,再一次性算平均——这里用了3个回合的回报。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 5:35:06

技术的便利,从来都不属于开发者

技术的便利,从来都不属于开发者 我们总被灌输一个共识:技术的发展是为了让人类更轻松。打开手机就能完成支付,点击鼠标就能部署应用,滑动屏幕就能连接世界——这些触手可及的便利,让每个人都能感受到技术迭代的温度。但…

作者头像 李华
网站建设 2026/2/22 22:06:35

燃爆!大数据OLAP在电力行业的创新应用

燃爆!大数据OLAP在电力行业的创新应用 摘要/引言 "2023年夏季,某省电网在用电高峰期间成功避免了大规模停电事故,这背后是一个每天处理超过10亿条电力数据的OLAP系统在默默支撑。"这个真实案例揭示了一个不争的事实:电…

作者头像 李华
网站建设 2026/2/19 9:26:56

Java毕设项目推荐-基于springboot的学生宿舍管理系统的设计与实现宿舍资源管理、学生入住、费用管理、设备报修、访客登记【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/2/15 11:56:06

llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体

agentscope-samples/tuner/frozen_lake at main agentscope-ai/agentscope-samples --- agentscope-samples/tuner/frozen_lake at main agentscope-ai/agentscope-samples At least 2 NVIDIA GPUs with CUDA 12.8 or newer 至少需要 2 块 NVIDIA GPU,支持 CUDA 1…

作者头像 李华
网站建设 2026/2/18 22:32:15

【毕业设计】基于springboot的周至猕猴桃产品售卖网站的设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华