- 什么是强化学习(RL)?
定义:智能体(Agent)在环境中采取行动,获得奖励或惩罚,目标是最大化累积奖励。
🐕 类比:训练小狗
做对动作(坐下)→ 给零食(+1分)
做错动作(乱叫)→ 轻拍鼻子(-0.1分)
小狗慢慢学会:哪些行为能得到更多零食。
- 强化学习的四要素
智能体:学习者(如AlphaGo、自动驾驶汽车)
环境:智能体交互的外部世界(棋盘、道路)
动作:智能体能做的选择(落子、转向)
奖励:环境的反馈信号(赢棋+100,撞车-1000)
- Q-learning:一个简单的RL算法
核心是维护一张Q表,记录【状态,动作】的价值。
更新公式(通俗版):
新Q值 = 旧Q值 + 学习率 × (即时奖励 + 折扣因子×未来最大Q值 - 旧Q值)
💡 例子:走迷宫
状态=当前位置,动作=上下左右
到达出口奖励+10,撞墙-1。智能体不断尝试,Q表逐渐学会最短路径。
- 动手:用Gym库训练小车爬坡
importgym env=gym.make('MountainCar-v0')# 小车必须冲上右边山坡state=env.reset()for_inrange(1000):action=env.action_space.sample()# 随机动作(0左推,1不动,2右推)next_state,reward,done,info=env.step(action)# 真正的训练会更新Q值,此处仅为演示环境ifdone:state=env.reset()- 强化学习的两大挑战
探索与利用的平衡:一直选已知最好动作(利用)可能错过更优解,随机探索又可能效率低。
奖励稀疏:比如下棋只有最后一步才赢,中间步骤很难获得反馈。
- 里程碑应用
领域 系统 成就
游戏 AlphaGo 击败围棋世界冠军
机器人 机械臂抓取 自主学会操作物体
交通 自动驾驶决策 处理变道、超车
推荐 新闻个性化 最大化用户点击
小结
强化学习是机器学习中最接近“生物学习”的分支,通过奖励和惩罚,AI能在复杂环境中摸索出最优策略。下一篇我们将进入“深度学习”,看看神经网络如何让AI拥有“大脑皮层”。
下一篇预告:《深度学习入门:神经网络是如何“思考”的?》