纳什均衡的混合战略
- 混合战略概念
- 混合战略的期望收益求解
- 【例题】
- 求混合战略均衡要先剔除劣战略:
- 【例题】【广告决策】
- 【例题】
- 【例题】
- 【税收检查】
- 【例题】【小偷与守卫】
- 【例题】(考试题)
- 【例题】试用支付最大化法、支付等值法、反应曲线法,求下列矩阵表示的完全相信静态博弈的纳什均衡。
- 【例题】求职博弈
- 【例题】支撑求解法求混合战略纳什均衡
- 原则一:战略的保密性与随机性
- 原则二:不能给对方以可乘之机(对方选择A和B,或者C和D的收益没有差别,就是不给对方可乘之机)
混合战略概念
在个参与人的博弈中,参与人的战略空间为,则参与人i以概率分布随机选择其个可选战略称为一个“混合战略”,其中且。
- 纯战略(pure strategies):如果一个战略规定参与人在一个给定的信息情况下只选择一种特定的行动。
- 混合战略(mixed strategies):如果一个战略规定参与人在给定的信息情况下,以某种概率分布随机地选择不同的行动。
- 在静态博弈里,纯战略等价于特定行动,混合战略是不同行动之间的随机选择。
混合战略的期望收益求解
与混合战略(mixed strategies)相伴随的一个问题,是参与人支付的不确定(uncertainty)。可用期望支付(expected payoff)来描述:有n个可能的取值X,Xg…,Xn,并且这些取值发生的概率分别为p,P2.…., pn,那么可以将这个数量指标的期望值定义为发生概率作为权重的所有可能取值的加权平均,也就是
【例题】
政府和流浪汉的博弈
政府想帮助流浪汉,但前提是后者必须试图寻找工作,否则不予帮助;而流浪汉若知道政府采用救济战略的话,他就不会寻找工作。他们只有在得不到政府救济时才会寻找工作。他们获得的支付如图所示:
通过观察划线法可以得知:没有一个双划线的得益数组,也就是没有一个纯战略纳什均衡,也就是政府没有一个最好的选择,流浪汉也没有一个最好的选择。
在这样一种情况下我们仍然要确定各自的一个行为选择的时候我们就采用混合战略方式。
假定政府采用混合战略:选择救济的概率是,不救济的概率是。
流浪汉的混合战略是:选择找工作的概率:,游闲的概率:
有一种求纳什均衡的办法是:我们要求支付最大化
政府的期望效用函数是:
政府最优化的一阶条件为:
流浪汉的期望效用函数为:
流浪汉最优化的一阶条件为:
上面这种求导来求最大值的算法其实有点不符合数学的逻辑,另一个问题是我们求政府的支付最大化求出的却是的最大值,求流浪汉的最大支付函数求出的却是,都是相反的。所以这一点也比较反常识一点。
还有一种方法是支付等值法:
就是完全利用我们一开始提到的原则:
找不到纯战略的情况下,就选择让对方无机可乘。也就是参与人一选择某个方案,会让参与人二选择A方案与选择B方案的收益是无差异的。就称之为等值法。
-
如果政府选择救济策略:,那么他这时候的期望收益是:
-
政府如果选择不救济策略:,这时候政府的期望效用是
如果一个混合战略是流浪汉的最优选择,那一定意味着政府在救济与不救济之间是无差异的,即:
可以看出与求导数方法算出的结果是一样的。
同理:如果一个混合战略是政府的最优选择,那一定意味着流浪汉在寻找工作与游闲之间是无差异的,即:
-
如果政府救济的概率小于0.5;则流浪汉的最优选择是寻找工作
-
如果政府救济的概率大于0.5; 则流浪汉的最优选择是游闲等待救济
-
如果政府救济的概率正好等于0.5;流浪汉的选择无差异
第三种方法是反应曲线法(如何应对是最佳反应)
【例】假设甲、乙均采用混和战略,随机地以的概率出红牌和以的概率出黑牌,而乙则随机地以的概率出红牌和以的概率出黑牌。
- 甲的期望支付是:
(最后整理成一部分和有关的,一部分和无关的) - 乙的期望支付是:
(最后整理成一部分和有关的,一部分和无关的)
的目标是期望支付越大越好。之所以把的期望支付整理成不含的一项和含的一项,是因为只能选择而不能,因此,能通过选择来影响第一项,而不能直接影响第二项。即时,把选择等于1最好;当时,把选择等于最好;当即时,可以在之间随便选择一个。这样我们可以得到的反应函数,同样道理我们可以得到的反应函数。
根据上面的分段等式,可以画出下面这这副反应曲线图(红色曲线是A对B的反应,粉色曲线是B对A的反应)。所以求纳什均衡就是求双方对对方的最优反应,那就是两条反应曲线的交点处,也就是。
求混合战略均衡要先剔除劣战略:
【例题】【广告决策】
三家公司同时决定是在早间还是晚间投放广告。如果同时间有多家公司做广告,他们的收益均为0;如果仅有一家公司在早间做广告,其收益为1;如果仅有一家公司在晚间做广告,其收益为2。证明如果存在混合战略纳什均衡,那么它是唯一的,并求出该均衡。
【解】
设某一家公司在早上投放广告的概率是,在晚上投放广告的概率是。
计算早上投放的总收益值:
- 一家在早上投放
如果只有一家在早上投放广告,则期望收益值是1。并且意味着与此同时另外两家公司必须在晚上投放广告,所以这种可能性的概率是,其收益只有1,所以总收益是。 - 还有一种是有两家在早上,一家在晚上;或者三家在早上,没有公司在晚上。由于这两种情况下收益均是0,所以就不用算了。
所以综合以上几种情况,在早上投放广告的总期望收益是。
下面计算在晚上投放广告的总期望收益:
-
只有一家在晚上投放广告
意味着另外两家都在早上投放广告,所以这种情况的概率是:,这种情况的收益是2。所以这种情况的总收益是:. -
还有一种情况是有两家在晚上投放广告,这时晚上的收益仍然为0。所以晚上的总收益就是。
-
支付等值法让早上的收益等于晚上的收益即可。
【例题】
【例题】
设参与人1选的概率为,选的概率为,参与人2选的概率为,选的概率为。根据上述第二个原则,参与人1选和的概率和。一定要使参与人2选的期望得益和选的期望得益相等,即:
【税收检查】
- 应纳税额:
- 检查成本:
- 罚款:
- 用代表税收机关检查的概率,代表纳税人逃税的概率。
- 税收机关选择检查和不检查的期望收益为:
- 纳税人选择逃税和不逃税的期望收益分别为:
我们可以根据三个参数对和的影响来知道我们的政策倾向。
【例题】【小偷与守卫】
泽尔腾(1996年3月,上海):一小偷欲偷窃有一守卫看守的仓库,如果小偷偷窃时守卫在睡觉,则小偷就能得手,偷得价值为的赃物;如果小偷偷窃时守卫没有睡觉,则小偷就会被抓住。设小偷被抓住后要坐牢,负效用为,守卫睡觉而未遭偷窃有的正效用,因睡觉被窃要被解雇,其负效用为。而如果小偷不偷,则他既无得也无失,守卫不睡意味着出一份力挣一份钱,他也没有得失。根据上述假设,小偷在该博弈中有“偷”和“不偷”两种可选战略,守卫有“睡”和“不睡”两种可选战略,双方的得益矩阵如图。
【例题】(考试题)
参与人1、2针对一个奖品进行博弈争夺。为了获胜,参与人1选择了X的努力水平,参与人2则选择了的努力水平。这时参与人1获胜的概率为,参与人2获胜的概率为。该奖品的价值为10,每一单位努力的成本为1。若两人同时决定努力水平,则纳什均衡为:
A.(2,2) B.(2.5,2.5)
C.(3,3) D.(3.5,3.5)
【解】
参与人一的期望效用是:
参与人二的期望效用是:
每个人都希望自己的期望效益最大化,所以就是每个人对各自的努力程度求偏导,让偏导等于0即可:
【例题】试用支付最大化法、支付等值法、反应曲线法,求下列矩阵表示的完全相信静态博弈的纳什均衡。
【例题】求职博弈
企业1、2各有一个工作空缺,企业的工资为,且。设有两人同时决定申请这两个企业的工作,规定每人只能申请一份工作。如果一个企业的工作只有一人申请,该人肯定得到这份工作;如果一个企业的工作同时有两人申请,则企业随机选择一人,另一人就会因为错过向另一个企业申请的时机而失去工作(此时收益为0)。问该博弈的纳什均衡是什么?该博弈的结果有多少种可能性,各自的概率是多少?
【解】
注意博弈的主体是求职者而不是企业。
【例题】支撑求解法求混合战略纳什均衡
首先我们来看2*4的情况下有没有合适的解,有没有纳什均衡:
根据战略列表,我们可以写出如下的式子:
解这个方程组会发现没有一个固定解,所以肯定要用到降维了。
然后我们依次讨论三种降维成2*3的战略组合是否有稳定解:发现一样得不到有效解。
最后我们看2*2的战略组合是否有有效解:
我们发现这个战略组合可以解出一个有效解:
解出的结果是:
但我们同时发现一个问题,当时,我们计算战略的收益值为:。也即C的收益比都更大,所以参与人1按照这样的概率来选择和时,参与人一有不在战略中考虑的倾向,比如就有考虑战略的倾向。因为C的收益要比A,B收益高。
所以这种降维虽然能算出结果,但是求出的解不稳定,就是说这种仅考虑A,B,而把其他战略概率看成0的降维方法得到的结果是不好的,不稳定的。因为算出的结果是参与人1有动机选择C,所以你降维的假设:”选择C的概率为0“就不成立了。所以即使这种算出了有一个解,但却并不是稳定解。
同样的我们去分析其他的战略组合,得到的结果也是一样的,最终都会和假设相矛盾。
最终只有一组:算出来的这个解是符合纳什均衡的唯一解且是稳定解:
文章出处登录后可见!