强化学习入门ⅡCS188 Note10 学习笔记-平芜编程栈

方法	描述	特点
Direct Evaluation	根据策略π ππ统计每个状态的累计奖励	简单但收敛慢，忽略状态间转移信息
Temporal Difference Learning (TD Learning)	用指数移动平均更新值函数	在线学习，收敛更快，适合 on-policy
Q-Learning	用 Q 值迭代直接学习最优策略	Off-policy，可容忍次优行为
Approximate Q-Learning	用特征表示状态，泛化能力强	适合大规模状态空间

On-policy vs. Off-policy

类型	定义	例子
On-policy	学习当前策略下的值函数	Direct Evaluation, TD Learning
Off-policy	学习最优策略，即使当前行为是次优的	Q-Learning

Regret

还有一个重要概念叫做Regret，我们至今不知道如何评判一个智能体强化学习性能的好坏，无法评判智能体学习到了哪一步，不知道智能体在Exploration vs. Exploitation之间取舍是否理智，我们就引入了Regret
R e g r e t = 最优策略累计奖励 − 算法实际累计奖励 Regret=最优策略累计奖励−算法实际累计奖励Regret=最优策略累计奖励−算法实际累计奖励
低 regret 表示算法在早期也能做出较好的决策

5分钟免费汉化GitHub！新手快速上手终极中文插件指南

5分钟免费汉化GitHub！新手快速上手终极中文插件指南【免费下载链接】github-chinese GitHub 汉化插件，GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 还在为GitHub满屏英文…

李华

告别对抗训练！用Python+PyTorch复现CVPR 2020的傅里叶域自适应（FDA），5行代码搞定语义分割的域迁移

5行代码实现傅里叶域自适应：用PythonPyTorch复现CVPR 2020语义分割域迁移方案当你在GTA5游戏数据上训练的分割模型，面对真实街景时表现一塌糊涂，传统对抗训练又需要耗费大量计算资源时，这个来自UCLA团队的方案可能会让你眼前一亮。…

李华

非Root安卓设备上使用Frida Gadget实现应用层Hook

1. 为什么非Root设备上Hook安卓App不再是“不可能任务”很多人第一次听说Frida，脑海里自动浮现出的场景是：一台已Root的测试机、adb shell里敲着su、frida-server在后台静静运行、然后用frida-trace监听onCreate——一套行云流水的操作，但前提…

李华

客户旅程重构实战：用AI Agent打通投保、核保、续期、理赔全链路（含可落地的RPA+LLM融合架构图）

更多请点击： https://codechina.net 第一章：客户旅程重构实战：用AI Agent打通投保、核保、续期、理赔全链路（含可落地的RPALLM融合架构图） 传统保险业务流程中，投保表单录入、核保规则校验、续期提醒触发与…

李华

Debian 11.6.0最小化安装与服务器初始化：打造纯净高效的Linux服务器环境

Debian 11.6.0最小化安装与服务器初始化实战指南在云计算与分布式系统成为主流的今天，一个轻量、安全且高效的服务器基础环境对于开发者而言至关重要。Debian以其卓越的稳定性、丰富的软件仓库和自由的发行策略，成为众多企业级应用的首选操作系统。本文将…

李华