11.04课堂作业:时序差分学习(TD)

2024年11月4日 强化学习

作业题目

题目:详细阐述时序差分学习(Temporal Difference Learning)的基本思想、五种典型TD算法及其对比分析。

1. TD学习的基本思想

1.1 核心目标

时序差分学习的核心目标是在不知道完整环境模型的情况下,直接从经验中学习状态价值函数或动作价值函数。它结合了动态规划和蒙特卡洛方法的优点,能够在每一步学习后立即更新价值估计,无需等待整个回合结束。

1.2 基本思想

TD学习的基本思想是利用当前估计的后续状态价值来更新当前状态的价值,即使用"时序差分"(Temporal Difference)来指导学习。这种方法通过比较当前的价值预测与更好的预测(包括后续的奖励和下一状态的价值)来调整价值函数。

1.3 基本更新公式

TD学习的基本更新公式为:

$$V(S_t) \leftarrow V(S_t) + \alpha \left[ R_{t+1} + \gamma V(S_{t+1}) - V(S_t) \right]$$

其中:

  • \(V(S_t)\):状态\(S_t\)的当前价值估计
  • \(\alpha\):学习率
  • \(R_{t+1}\):在状态\(S_t\)采取动作后获得的即时奖励
  • \(\gamma\):折扣因子
  • \(S_{t+1}\):下一个状态
  • \(\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\):TD误差

1.4 核心要素

  • 自举(Bootstrapping):利用当前估计来更新估计
  • 增量学习:每步都进行更新,无需等待回合结束
  • 在线学习:可以直接从与环境交互的经验中学习

2. 五种典型的TD学习算法

2.1 TD(0) 算法

基本思想:最简单的TD算法,每次只向前看一步

更新公式:

$$V(S_t) \leftarrow V(S_t) + \alpha \left[ R_{t+1} + \gamma V(S_{t+1}) - V(S_t) \right]$$

特点:使用下一状态的价值来更新当前状态

2.2 SARSA 算法

基本思想:State-Action-Reward-State-Action,学习动作价值函数Q(s,a)

更新公式:

$$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha \left[ R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) - Q(S_t,A_t) \right]$$

特点:考虑下一个动作,适用于在线学习策略

2.3 Q-Learning 算法

基本思想:离策略TD控制算法,学习最优动作价值函数

更新公式:

$$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha \left[ R_{t+1} + \gamma \max_a Q(S_{t+1},a) - Q(S_t,A_t) \right]$$

特点:使用最大Q值,可以学习最优策略

2.4 Expected SARSA 算法

基本思想:SARSA的改进版本,使用期望值代替实际采样值

更新公式:

$$Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha \left[ R_{t+1} + \gamma \sum_a \pi(a|S_{t+1})Q(S_{t+1},a) - Q(S_t,A_t) \right]$$

特点:减少方差,提高稳定性

2.5 TD(λ) 算法

基本思想:结合TD和蒙特卡洛方法,使用资格迹(eligibility traces)

更新公式:

$$\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$$ $$V(S_t) \leftarrow V(S_t) + \alpha \delta_t E_t(s)$$ $$E_t(s) = \gamma \lambda E_{t-1}(s) + \mathbb{1}_{(s=S_t)}$$

特点:向前看多步,平衡偏差和方差

3. 算法对比分析

算法 策略类型 更新目标 学习对象 主要优势 主要劣势 适用场景
TD(0) 同策略 V(s) 状态价值 简单直接,计算高效 无法直接用于控制 策略评估
SARSA 同策略 Q(s,a) 动作价值 安全,考虑探索策略 受探索策略影响 需要安全探索的连续控制
Q-Learning 异策略 Q(s,a) 动作价值 可学习最优策略 训练不稳定,容易高估 离散动作空间的最优控制
Expected SARSA 同/异策略 Q(s,a) 动作价值 稳定性高,方差小 计算复杂度较高 需要稳定性的复杂环境
TD(λ) 同策略 V(s) 状态价值 平衡偏差方差,效率高 参数调优复杂 长序列奖励任务

关键差异总结

策略类型

Q-Learning是唯一纯异策略算法,可以学习不同于执行策略的最优策略

更新机制

TD(0)使用一步更新,TD(λ)使用多步更新,其他使用单步Q值更新

稳定性

Expected SARSA > TD(0) ≈ SARSA > Q-Learning

样本效率

TD(λ) > Expected SARSA ≈ SARSA > Q-Learning > TD(0)

适用性

TD(0)主要用于评估,其他主要用于控制