题目:详细阐述时序差分学习(Temporal Difference Learning)的基本思想、五种典型TD算法及其对比分析。
时序差分学习的核心目标是在不知道完整环境模型的情况下,直接从经验中学习状态价值函数或动作价值函数。它结合了动态规划和蒙特卡洛方法的优点,能够在每一步学习后立即更新价值估计,无需等待整个回合结束。
TD学习的基本思想是利用当前估计的后续状态价值来更新当前状态的价值,即使用"时序差分"(Temporal Difference)来指导学习。这种方法通过比较当前的价值预测与更好的预测(包括后续的奖励和下一状态的价值)来调整价值函数。
TD学习的基本更新公式为:
其中:
基本思想:最简单的TD算法,每次只向前看一步
更新公式:
特点:使用下一状态的价值来更新当前状态
基本思想:State-Action-Reward-State-Action,学习动作价值函数Q(s,a)
更新公式:
特点:考虑下一个动作,适用于在线学习策略
基本思想:离策略TD控制算法,学习最优动作价值函数
更新公式:
特点:使用最大Q值,可以学习最优策略
基本思想:SARSA的改进版本,使用期望值代替实际采样值
更新公式:
特点:减少方差,提高稳定性
基本思想:结合TD和蒙特卡洛方法,使用资格迹(eligibility traces)
更新公式:
特点:向前看多步,平衡偏差和方差
| 算法 | 策略类型 | 更新目标 | 学习对象 | 主要优势 | 主要劣势 | 适用场景 |
|---|---|---|---|---|---|---|
| TD(0) | 同策略 | V(s) | 状态价值 | 简单直接,计算高效 | 无法直接用于控制 | 策略评估 |
| SARSA | 同策略 | Q(s,a) | 动作价值 | 安全,考虑探索策略 | 受探索策略影响 | 需要安全探索的连续控制 |
| Q-Learning | 异策略 | Q(s,a) | 动作价值 | 可学习最优策略 | 训练不稳定,容易高估 | 离散动作空间的最优控制 |
| Expected SARSA | 同/异策略 | Q(s,a) | 动作价值 | 稳定性高,方差小 | 计算复杂度较高 | 需要稳定性的复杂环境 |
| TD(λ) | 同策略 | V(s) | 状态价值 | 平衡偏差方差,效率高 | 参数调优复杂 | 长序列奖励任务 |
Q-Learning是唯一纯异策略算法,可以学习不同于执行策略的最优策略
TD(0)使用一步更新,TD(λ)使用多步更新,其他使用单步Q值更新
Expected SARSA > TD(0) ≈ SARSA > Q-Learning
TD(λ) > Expected SARSA ≈ SARSA > Q-Learning > TD(0)
TD(0)主要用于评估,其他主要用于控制