返回目录

第十节课作业：不完美信息下的博弈

1. 问题定义

1.1 不完美信息博弈的概念

不完美信息博弈（Imperfect Information Game）是指在博弈过程中，参与者无法完全了解其他参与者的信息或博弈的某些状态信息的博弈类型。这与完美信息博弈形成对比，后者中所有参与者都完全了解博弈的历史状态。

             核心特征
            信息不对称：不同参与者掌握的信息量不同
隐藏信息：某些关键信息对部分参与者不可见
不确定性：决策存在风险和概率因素
策略依赖性：最优策略依赖于对未知信息的推理

        

1.2 数学定义

在博弈论中，不完美信息博弈可以用扩展式博弈表示：

$G = (N, A, H, Z, \rho, \sigma, u, I)$

其中 $I = \{I_1, I_2, ..., I_n\}$ 表示信息集分割

同一信息集中的决策节点无法被参与者区分

2. 经典例子

2.1 扑克（Poker）

问题描述

参与者知道自己的手牌，但不知道对手的手牌
需要通过下注模式和对手行为推断对手牌力
包含bluff（诈唬）和心理战术

关键要素

隐藏信息：对手的手牌
不完全观测：对手的决策逻辑
概率推理：基于已知信息计算胜率

2.2 桥牌（Bridge）

问题描述

4人游戏中，搭档之间需要配合
只能看到自己的13张牌，需要通过叫牌传递信息
防守方需要推理庄家的牌型分布

复杂性

信息传递的合法性限制
多层级的信息推理
团队合作中的信息共享

2.3 军事博弈

问题描述

战争中无法完全了解敌方部署
需要基于侦察和情报做出决策
包含欺骗和信息战

应用场景

部署隐蔽和侦察
假目标设置
战略欺骗

2.4 拍卖理论

第一价格密封拍卖

参与者不知道其他人的估值
需要猜测竞争对手的出价策略
最优策略依赖于对估值的分布假设

3. 主流求解方法

3.1 纳什均衡求解

3.1.1 行为策略纳什均衡

基本思路：

在每个信息集上定义概率分布
寻找无人有激励偏离的稳定状态
支撑定理：Kuhn's theorem保证行为策略和混合策略的等价性

求解方法：

Lemke-Howson算法：适用于双人博弈
支撑枚举法：穷举所有可能的支撑集
迭代最优响应：逐步逼近均衡点

3.1.2 序贯均衡

特点：

在纳什均衡基础上增加一致性要求
考虑非均衡路径上的信念更新
适用于动态不完美信息博弈

3.2 机器学习方法

3.2.1 反向强化学习（Inverse RL）

             核心思想
            从专家策略中推断回报函数
学习潜在的信息结构和决策逻辑
适用于信息不完全的复杂环境

            
            算法步骤
            收集专家决策数据
优化回报函数以解释专家行为
使用学习到的回报函数训练策略

        

3.2.2 深度神经网络方法

AlphaGo系列：

AlphaGo：结合蒙特卡洛树搜索和深度学习
AlphaZero：自我对弈学习，无需人类数据
AlphaStar：处理星际争霸等不完美信息游戏

网络架构：

策略网络：输出动作概率分布
价值网络：评估状态价值
信念网络：表示对隐藏信息的概率估计

3.3 近似算法

3.3.1 蒙特卡洛方法

基本原理：

通过随机采样估计期望值
处理高维信息空间
适用于大规模博弈问题

具体技术：

蒙特卡洛树搜索（MCTS）：平衡探索与利用
重要性采样：提高采样效率
分层采样：处理多层级不确定性

3.3.2 信息集抽象

抽象方法：

机会节点抽象：合并概率相似的随机事件
历史启发抽象：基于博弈历史进行聚类
Lossless抽象：保证不丢失均衡解

3.4 演化博弈方法

3.4.1 遗传算法

应用思路：

将策略编码为基因型
通过选择、交叉、变异进化策略
适应度函数基于策略对战表现

优势：

处理复杂策略空间
避免局部最优
适用于多目标优化

3.4.2 粒子群优化

特点：

模拟群体智能行为
个体学习和群体学习相结合
收敛速度快，参数调节简单

3.5 在线学习方法

3.5.1 虚拟对弈（Fictitious Play）

算法描述：

维护对手策略的经验分布
每轮对经验分布做出最佳响应
理论上收敛到纳什均衡

改进版本：

平滑虚拟对弈：避免循环震荡
加权虚拟对弈：给近期策略更高权重

3.5.2 遗憾最小化（Regret Minimization）

             核心概念
            遗憾值：实际收益与最佳可能收益的差距
累积遗憾：历史遗憾的总和
遗憾匹配：根据遗憾值调整策略概率

        

算法实现：

对于每个信息集i和动作a：
    累积遗憾[i][a] += 实际收益 - 最佳响应收益
    策略[i][a] = max(累积遗憾[i][a], 0) / Σ累积遗憾[i]

3.6 贝叶斯方法

3.6.1 贝叶斯博弈

建模框架：

参与者类型：私有信息的抽象
类型分布：先验概率分布
策略函数：从类型到动作的映射

求解思路：

计算贝叶斯纳什均衡
使用粒子滤波处理后验信念
适用于信息结构明确的场景

3.6.2 信念更新机制

贝叶斯推断：

根据观测到的行为更新信念
使用马尔可夫链蒙特卡洛（MCMC）
处理高维后验分布

4. 前沿进展

4.1 深度强化学习突破

重大成果

DeepStack：首个在Heads-up No-Limit Texas Hold'em中击败职业玩家的AI
Libratus：在多轮德州扑克中击败顶尖职业选手
Pluribus：在六人扑克中达到超人类水平

4.2 理论发展

粗相关均衡：弱化纳什均衡的要求
在线凸优化：提供后悔边界保证
分布式算法：解决大规模博弈的计算挑战

4.3 应用拓展

经济学：市场设计和机制设计
网络安全：攻防博弈策略
自动驾驶：多智能体决策
医疗诊断：不确定信息下的决策支持

5. 算法对比总结

方法类别	代表算法	优点	缺点	适用场景
纳什均衡	Lemke-Howson	理论保证强	计算复杂度高	小规模博弈
深度学习	AlphaStar	处理复杂环境	需要大量数据	大规模游戏
蒙特卡洛	MCTS	无需模型	收敛慢	在线决策
遗憾最小化	CFR	收敛保证	内存消耗大	扑克类游戏
贝叶斯方法	贝叶斯博弈	处理不确定性	计算复杂	拍卖、谈判