返回目录

10.30课堂作业:强化学习折扣因子

核心目的

折扣因子的引入实际上就是为了能够收敛

1. 折扣因子的数学定义

在强化学习中,状态价值函数$V(s)$和动作价值函数$Q(s,a)$的递推方程中,折扣因子$\gamma$(或$\lambda$)用于对未来奖励进行加权:

状态价值函数:

$V(s) = \mathbb{E}\left[R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \mid S_t = s\right]$

动作价值函数:

$Q(s,a) = \mathbb{E}\left[R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots \mid S_t = s, A_t = a\right]$

2. 主要原因分析

2.1 重新计算/估计路径收益

问题背景

在无限时间序列的MDP中,如果不对未来奖励进行折扣,可能出现以下问题:

无折扣的问题

折扣因子的解决方案

几何级数收敛性:

引入折扣因子$\gamma$后,即使奖励序列有界,无限和也会收敛:

$\sum_{t=0}^{\infty} \gamma^t R_t \leq R_{\max} \sum_{t=0}^{\infty} \gamma^t = \frac{R_{\max}}{1-\gamma}$

路径收益重新定义:

类型 公式 特点
原始路径收益 $G_t = \sum_{k=0}^{\infty} R_{t+k}$ 可能发散
折扣路径收益 $G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k}$ 保证收敛

实际意义:

2.2 修正递推方程

Bellman方程的修正

无折扣情况的问题:

$V(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + V(s') \right]$

这种形式可能导致

引入折扣因子后的Bellman方程:

$V(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V(s') \right]$

修正的数学优势

1. 唯一解存在性

2. 收敛速度控制

3. 算法稳定性

3. 折扣因子的深层含义

3.1 经济学解释

3.2 算法实现角度

4. 折扣因子的选择策略

4.1 经验法则

$\gamma$值 适用场景 特点
$0.9 \sim 0.99$ 大多数强化学习应用 标准选择
$0.95$ 平衡短期和长期收益 常用值
$< 0.8$ 需要快速收敛的简单任务 短期导向

4.2 任务特定考虑

5. 理论保证

5.1 数学收敛性

5.2 最优策略存在性

6. 实际应用中的考量

6.1 算法实现

值迭代算法中的折扣因子应用:

def value_iteration(P, R, gamma=0.95, theta=1e-6):
    n_states = len(P)
    V = np.zeros(n_states)

    while True:
        delta = 0
        for s in range(n_states):
            v_old = V[s]
            V[s] = max([np.sum(P[s][a] * (R[s][a] + gamma * V))
                       for a in range(len(P[s]))])
            delta = max(delta, abs(v_old - V[s]))

        if delta < theta:
            break

    return V

对应的数学更新公式为:

$V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V_k(s') \right]$

6.2 超参数调优

7. 局限性与改进方向

7.1 固定折扣的局限

7.2 变折扣因子方法

变折扣因子的数学表示:

$G_t = \sum_{k=0}^{\infty} \left( \prod_{i=0}^{k-1} \gamma_{t+i} \right) R_{t+k}$

其中$\gamma_{t+i}$为时间步$t+i$的折扣因子

总结

折扣因子是强化学习中的关键超参数,其核心作用是:

  1. 保证收敛:使无限时间序列的价值函数有界
  2. 平衡短期与长期:权衡即时奖励和未来收益
  3. 提供理论保证:确保算法的数学性质
  4. 反映实际偏好:符合人类的时间偏好和不确定性