返回目录

10.30课堂作业：强化学习折扣因子

核心目的

折扣因子的引入实际上就是为了能够收敛

1. 折扣因子的数学定义

在强化学习中，状态价值函数$V(s)$和动作价值函数$Q(s,a)$的递推方程中，折扣因子$\gamma$（或$\lambda$）用于对未来奖励进行加权：

状态价值函数：

$V(s) = \mathbb{E}\left[R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \mid S_t = s\right]$

动作价值函数：

$Q(s,a) = \mathbb{E}\left[R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \mid S_t = s, A_t = a\right]$

2. 主要原因分析

2.1 重新计算/估计路径收益

问题背景

在无限时间序列的MDP中，如果不对未来奖励进行折扣，可能出现以下问题：

无折扣的问题

无限奖励和问题：当奖励序列不收敛时，总和可能无限大
数值计算困难：无限求和在实际计算中不可行
收敛性问题：算法可能无法收敛到稳定解

折扣因子的解决方案

几何级数收敛性：

引入折扣因子$\gamma$后，即使奖励序列有界，无限和也会收敛：

$\sum_{t=0}^{\infty} \gamma^t R_t \leq R_{\max} \sum_{t=0}^{\infty} \gamma^t = \frac{R_{\max}}{1-\gamma}$

路径收益重新定义：

类型	公式	特点
原始路径收益	$G_t = \sum_{k=0}^{\infty} R_{t+k}$	可能发散
折扣路径收益	$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k}$	保证收敛

实际意义：

近期奖励获得更高权重
远期奖励影响逐渐减弱
符合人类决策的直觉偏好

2.2 修正递推方程

Bellman方程的修正

无折扣情况的问题：

$V(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + V(s') \right]$

这种形式可能导致

方程无解或存在多个解
迭代算法不收敛
最优策略不存在

引入折扣因子后的Bellman方程：

$V(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V(s') \right]$

修正的数学优势

1. 唯一解存在性

折扣因子$\gamma \in [0,1)$保证了价值函数的唯一性
压缩映射原理确保迭代收敛

2. 收敛速度控制

$\gamma$越接近1，收敛越慢但考虑更长远
$\gamma$越接近0，收敛越快但更关注短期

3. 算法稳定性

值迭代、策略迭代等方法需要折扣因子保证收敛
时序差分(TD)学习的稳定性依赖折扣因子

3. 折扣因子的深层含义

3.1 经济学解释

时间偏好：人类倾向于立即获得奖励而非等待
不确定性：未来状态转换存在随机性和不确定性
机会成本：延迟奖励可能失去其他机会

3.2 算法实现角度

计算复杂度控制：有效截断无限时间序列
探索-利用平衡：影响算法对不同时间尺度奖励的关注
稳定性保证：确保学习过程的数学稳定性

4. 折扣因子的选择策略

4.1 经验法则

$\gamma$值	适用场景	特点
$0.9 \sim 0.99$	大多数强化学习应用	标准选择
$0.95$	平衡短期和长期收益	常用值
$< 0.8$	需要快速收敛的简单任务	短期导向

4.2 任务特定考虑

任务时间尺度：短期任务使用较小$\gamma$值
环境确定性：确定性环境可使用较大$\gamma$值
奖励稀疏性：奖励稀疏环境需要较大$\gamma$值

5. 理论保证

5.1 数学收敛性

压缩映射：$\gamma < 1$时Bellman算子是压缩映射
唯一不动点：存在唯一的价值函数解
几何收敛：迭代误差以$\gamma$的几何级数递减

5.2 最优策略存在性

有限MDP：折扣因子保证最优策略存在
无限MDP：折扣因子扩展了适用范围
近似算法：为函数逼近提供理论基础

6. 实际应用中的考量

6.1 算法实现

值迭代算法中的折扣因子应用：

def value_iteration(P, R, gamma=0.95, theta=1e-6):
    n_states = len(P)
    V = np.zeros(n_states)

    while True:
        delta = 0
        for s in range(n_states):
            v_old = V[s]
            V[s] = max([np.sum(P[s][a] * (R[s][a] + gamma * V))
                       for a in range(len(P[s]))])
            delta = max(delta, abs(v_old - V[s]))

        if delta < theta:
            break

    return V

对应的数学更新公式为：

$V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V_k(s') \right]$

6.2 超参数调优

网格搜索：在不同$\gamma$值上测试算法性能
自适应调整：根据学习进度动态调整$\gamma$值
多目标优化：同时优化多个评价指标

7. 局限性与改进方向

7.1 固定折扣的局限

任务适应性差：单一$\gamma$值不适用于复杂环境
长期规划不足：可能忽视重要的长期后果
短期行为偏见：过度关注立即奖励

7.2 变折扣因子方法

时间依赖折扣：$\gamma(t)$随时间变化的折扣策略
状态依赖折扣：$\gamma(s)$根据状态调整的智能折扣
目标导向折扣：基于任务目标的自适应折扣

变折扣因子的数学表示：

$G_t = \sum_{k=0}^{\infty} \left( \prod_{i=0}^{k-1} \gamma_{t+i} \right) R_{t+k}$

其中$\gamma_{t+i}$为时间步$t+i$的折扣因子

总结

折扣因子是强化学习中的关键超参数，其核心作用是：

保证收敛：使无限时间序列的价值函数有界
平衡短期与长期：权衡即时奖励和未来收益
提供理论保证：确保算法的数学性质
反映实际偏好：符合人类的时间偏好和不确定性