news 2026/5/24 7:36:55

强化学习入门ⅡCS188 Note10 学习笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习入门ⅡCS188 Note10 学习笔记

更好的阅读体验

Approximate Q-learning

Q-learning虽然很有优势,但是缺乏了泛化能力。当pacman学习了figure1中的困境后,智能体是不会意识到figure2,figure3中的情景和figure1中的困境基本一样

所以说Q-Learning很有局限性,这时候该算法就不再记下具体状态,而是记住状态特征,将状态表示为特征向量,比如pacman的特征向量就可以编码为

Exploration vs. Exploitation

在强化学习中,智能体(agent)需要在以下两者之间做出权衡:

ε-Greedy Policies

一种很基础来强迫智能体做出Exploration的方法,给定一个0 < ε < 1

Exploration Functions

这是一种更智能的选择,这种方式通过在Q值更新中引入"探索奖励",Q值迭代表达式更新变为
Q ( s , a ) ← ( 1 − α ) Q ( s , a ) + α [ R ( s , a , s ′ ) + γ max ⁡ a ′ f ( s ′ , a ′ ) ] \begin{align*} Q(s,a) &\leftarrow (1-\alpha)Q(s,a) + \alpha\big[ R(s,a,s') + \gamma \max_{a'} f(s',a') \big] \end{align*}Q(s,a)(1α)Q(s,a)+α[R(s,a,s)+γamaxf(s,a)]
其中f( s, a )为探索函数,常见形式为
f ( s , a ) = Q ( s , a ) + k N ( s , a ) \begin{align*} f(s,a) &= Q(s,a) + \frac{k}{N(s,a)} \end{align*}f(s,a)=Q(s,a)+N(s,a)k
其中N( s, a )表示状态-动作对( s, a )被访问的次数。k表示偏好系数,即控制探索( Exploration )的强度

RL Summary

Model-based Learning(基于模型的学习)

在Note9中有详细介绍:

Model-free Learning(无模型学习)

在Note9中有详细介绍

方法描述特点
Direct Evaluation根据策略π ππ统计每个状态的累计奖励简单但收敛慢,忽略状态间转移信息
Temporal Difference Learning (TD Learning)用指数移动平均更新值函数在线学习,收敛更快,适合 on-policy
Q-Learning用 Q 值迭代直接学习最优策略Off-policy,可容忍次优行为
Approximate Q-Learning用特征表示状态,泛化能力强适合大规模状态空间

On-policy vs. Off-policy

类型定义例子
On-policy学习当前策略下的值函数Direct Evaluation, TD Learning
Off-policy学习最优策略,即使当前行为是次优的Q-Learning

Regret

还有一个重要概念叫做Regret,我们至今不知道如何评判一个智能体强化学习性能的好坏,无法评判智能体学习到了哪一步,不知道智能体在Exploration vs. Exploitation之间取舍是否理智,我们就引入了Regret
R e g r e t = 最优策略累计奖励 − 算法实际累计奖励 Regret=最优策略累计奖励−算法实际累计奖励Regret=最优策略累计奖励算法实际累计奖励
低 regret 表示算法在早期也能做出较好的决策

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/24 7:31:33

5分钟免费汉化GitHub!新手快速上手终极中文插件指南

5分钟免费汉化GitHub&#xff01;新手快速上手终极中文插件指南 【免费下载链接】github-chinese GitHub 汉化插件&#xff0c;GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 还在为GitHub满屏英文…

作者头像 李华
网站建设 2026/5/24 7:29:45

告别对抗训练!用Python+PyTorch复现CVPR 2020的傅里叶域自适应(FDA),5行代码搞定语义分割的域迁移

5行代码实现傅里叶域自适应&#xff1a;用PythonPyTorch复现CVPR 2020语义分割域迁移方案当你在GTA5游戏数据上训练的分割模型&#xff0c;面对真实街景时表现一塌糊涂&#xff0c;传统对抗训练又需要耗费大量计算资源时&#xff0c;这个来自UCLA团队的方案可能会让你眼前一亮。…

作者头像 李华
网站建设 2026/5/24 7:28:34

非Root安卓设备上使用Frida Gadget实现应用层Hook

1. 为什么非Root设备上Hook安卓App不再是“不可能任务”很多人第一次听说Frida&#xff0c;脑海里自动浮现出的场景是&#xff1a;一台已Root的测试机、adb shell里敲着su、frida-server在后台静静运行、然后用frida-trace监听onCreate——一套行云流水的操作&#xff0c;但前提…

作者头像 李华
网站建设 2026/5/24 7:11:44

Debian 11.6.0最小化安装与服务器初始化:打造纯净高效的Linux服务器环境

Debian 11.6.0最小化安装与服务器初始化实战指南在云计算与分布式系统成为主流的今天&#xff0c;一个轻量、安全且高效的服务器基础环境对于开发者而言至关重要。Debian以其卓越的稳定性、丰富的软件仓库和自由的发行策略&#xff0c;成为众多企业级应用的首选操作系统。本文将…

作者头像 李华